DeepSeek震撼硅谷，从数据到技术，Meta紧急组建多个小组研究复制

栏目分类

热点资讯

新闻动态

发布日期：2025-02-02 16:44 点击次数：62

DeepSeek 引硅谷巨震，Meta 陷入恐慌，紧急组建研究小组。

近日，中国 AI 公司 DeepSeek 发布的 R1 模型（DeepSeek R1）热度飙升。1 月 24 日，在专业大模型排名 Arena 上，DeepSeek-R1 基准测试已经升至全类别大模型第三，其中在风格控制类模型（StyleCtrl）分类中与 OpenAI o1 并列第一；而其竞技场得分达到 1357 分，略超 OpenAI o1 的 1352 分。

据报道，面对 DeepSeek 的挑战，Meta 迅速采取行动，已组建了多个"小组"来研究 DeepSeek 的技术细节。

其中两个小组正在试图了解 DeepSeek 如何降低训练和运行大模型的成本，第三小组正在试图弄清楚 DeepSeek 使用的数据集，第四小组则正在考虑基于 DeepSeek 模型属性重构 Meta 的 Llama 模型。

此外，DeepSeek 此前在技术论文中介绍的降本方法，也已被 Meta 的研究小组列为重点研究对象，包括模型蒸馏（distillation）等技术。Meta 希望通过这些努力，能够在即将发布的 Llama 4 中实现技术突破。

Meta 的 AI 基础设施总监 Mathew Oldham 等高层领导此前公开表示，他们对 Llama 的表现感到担忧，担心其无法与 DeepSeek 竞争。

Meta 的开发者社区也反映，尽管 Llama 模型是免费的，但其运行成本往往高于 OpenAI 的模型——因为 OpenAI 能够通过批量处理数百万用户的查询来降低成本，而使用 Llama 的小型开发者则无法达到这种规模。

OpenAI 高级研究员 Noam Brown 上周在 X 上表示：

" DeepSeek 表明你可以用相对较少的算力获得非常强大的 AI 模型。"

上一篇：阿昌庞续约蓝军, 感恩马雷斯卡信任续航
下一篇：记者: 申花未能拿下国安士气受挫, 路易斯、米内罗出战亚冠存疑