新闻动态
DeepSeek 引硅谷巨震,Meta 陷入恐慌,紧急组建研究小组。
近日,中国 AI 公司 DeepSeek 发布的 R1 模型(DeepSeek R1)热度飙升。1 月 24 日,在专业大模型排名 Arena 上,DeepSeek-R1 基准测试已经升至全类别大模型第三,其中在风格控制类模型(StyleCtrl)分类中与 OpenAI o1 并列第一;而其竞技场得分达到 1357 分,略超 OpenAI o1 的 1352 分。
据报道,面对 DeepSeek 的挑战,Meta 迅速采取行动,已组建了多个"小组"来研究 DeepSeek 的技术细节。
其中两个小组正在试图了解 DeepSeek 如何降低训练和运行大模型的成本,第三小组正在试图弄清楚 DeepSeek 使用的数据集,第四小组则正在考虑基于 DeepSeek 模型属性重构 Meta 的 Llama 模型。
此外,DeepSeek 此前在技术论文中介绍的降本方法,也已被 Meta 的研究小组列为重点研究对象,包括模型蒸馏(distillation)等技术。Meta 希望通过这些努力,能够在即将发布的 Llama 4 中实现技术突破。
Meta 的 AI 基础设施总监 Mathew Oldham 等高层领导此前公开表示,他们对 Llama 的表现感到担忧,担心其无法与 DeepSeek 竞争。
Meta 的开发者社区也反映,尽管 Llama 模型是免费的,但其运行成本往往高于 OpenAI 的模型——因为 OpenAI 能够通过批量处理数百万用户的查询来降低成本,而使用 Llama 的小型开发者则无法达到这种规模。
OpenAI 高级研究员 Noam Brown 上周在 X 上表示:
" DeepSeek 表明你可以用相对较少的算力获得非常强大的 AI 模型。"
下一篇:没有了