2025 年 1 月 20 日,DeepSeek(深度求索)正式发布了 DeepSeek-R1 模型,并由此开启了新的开源 LLM 时代。在 Hugging Face 刚刚发布的《「DeepSeek 时刻」一周年记》博客中,DeepSeek-R1 也是该平台上获赞最多的模型。 如今,刚过一年时间,DeepSeek 的新模型又在 GitHub 悄然现身。
梁文锋是一名“80后”,17岁考入浙江大学信息与电子工程学系,在校期间深入研究数据分析和计算机系统,并对金融市场产生浓厚兴趣。2008年国际金融危机期间,梁文锋逆势而上,带领团队探索如何以先进的数学模型替代人为的主观判断,以更高速、更智能的 ...
使用微信扫码将网页分享到微信 「服务器繁忙,请稍后再试。」 一年前,我也是被这句话硬控的用户之一。 DeepSeek 带着 R1 在一年前的今天(2025.1.20)横空出世,一出场就吸引了全球的目光。 那时候为了能顺畅用上 DeepSeek,我翻遍了自部署教程,也下载过不少 ...
就在十几个小时前,DeepSeek 发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》,与北京大学合作完成,作者中同样有梁文锋署名。 简单总结一波这项新研究要解决的问题:目前大语言模型主要通过混合专家(MoE)来 ...
The Chinese start-up used several technological tricks, including a method called “mixture of experts,” to significantly reduce the cost of building the technology. By Cade Metz Reporting from San ...
The release of the DeepSeek-R1 reasoning model has caused shockwaves across the tech industry, with the most obvious sign being the sudden selloff of major AI stocks. The advantage of well-funded AI ...
Mary Roeloffs is a Forbes breaking news reporter covering pop culture. Here’s everything to know about Chinese AI company called DeepSeek, which topped the app charts and rattled global tech stocks ...
中国AI大模型的重磅消息陆续传来。 2月11日晚,智谱官方确认,此前在全球模型服务平台OpenRouter登顶热度榜首的神秘模型“Pony Alpha”,为智谱新模型GLM-5。目前新模型已在chat.z.ai平台上线。 2月6日,全球模型服务平台OpenRouter悄然上线一款代号为"Pony Alpha"的匿名 ...
As the relationship between the US and its European allies shows signs of strain, AI labs across the continent are searching for inventive ways to close the gap with American rivals that have so far ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果