首页 > 热点资讯 > 正文

DeepSeek:5个被误解的真相,AI专家亲自揭秘

2025-02-07 15:32 来源:网络

DeepSeek 被误读的 5 个真相,AI 大佬亲自揭秘

DeepSeek 的崛起与谣言:真相与误解

让我们再复习一遍:小红靠捧,大红靠命。DeepSeek 在这个春节爆火,自然也引来不少非议。尤其是在国际局势复杂多变的背景下,作为一家中国公司,DeepSeek 遭遇了许多无端的谣言。

前 Stability AI 研究主管 Tanishq Mathew Abraham 昨天挺身而出,以业内人士的身份,详细分析了 DeepSeek 的几大谣言,并澄清了一些关键事实。

谣言 1:DeepSeek 是一家突然冒出来的公司?

完全错误。到2025年1月,几乎所有生成式AI研究人员都已经听说过 DeepSeek。该公司甚至在完整发布 R1 模型前几个月就发布了预览版。DeepSeek 的首个开源模型 DeepSeek-Coder 于2023年11月发布,当时是业界领先的代码生成语言模型(LLM)。DeepSeek 在一年内持续发布前沿模型,其进步速度并不可疑,反而非常合理。

谣言 2:DeepSeek 的训练成本不是600万美元?

这是一个有趣的问题。有人怀疑 DeepSeek 为了掩盖非法获取计算资源而谎报成本。然而,根据 DeepSeek-V3 论文中的数据,该模型的基础版本确实花费了约550万美元。考虑到额外的强化学习训练费用,总成本可能略高,但仍在合理范围内。此外,DeepSeek 使用的是 H800 GPU 集群,而非 H100s,这也影响了成本估算。研究人员认为,DeepSeek 的高效运营和批量采购使得成本更低,这并没有任何不当之处。

谣言 3:DeepSeek 这么便宜,美国 AGI 公司都在浪费钱?

这种观点相当短视。DeepSeek 的确在训练中表现出更高的效率,但这并不意味着更多的计算资源是坏事。Scaling laws 表明,更多的计算资源可以带来更好的性能。虽然 DeepSeek 提供了一种更高效的训练方法,但这并不否定其他公司在大规模计算上的投入。事实上,许多 AGI 公司相信,通过不断增加计算资源,最终能够实现通用人工智能(AGI)和超级智能(ASI)。因此,DeepSeek 的成功并不会影响对 NVIDIA 的信心,因为更多的计算资源始终是有价值的。

谣言 4:DeepSeek 没有做出任何有意义的创新?

错误。DeepSeek 在语言模型的设计和训练方法上有很多创新,包括但不限于:

- 多头潜注意力 (MLA):改进了传统的多头注意力机制,既节省内存又提高性能。

- GRPO 与可验证奖励:开发了一种高效的强化学习算法 GRPO,能够在不依赖复杂技术的情况下复制类似 OpenAI 的结果。

- DualPipe:设计了一种新的多 GPU 训练方案,显著提高了训练效率和速度。

这些创新不仅提升了 DeepSeek 的模型性能,还为整个 AI 社区提供了宝贵的开源资源。

谣言 5:DeepSeek 正在“汲取”ChatGPT 的知识?

这一说法缺乏证据支持。OpenAI 和一些人士声称 DeepSeek 使用蒸馏技术从 ChatGPT 获取知识,但这种说法存在误导。蒸馏通常指的是在所有可能的下一个词的概率上进行训练,而 ChatGPT 并未公开这些信息。即使假设 DeepSeek 使用了 ChatGPT 生成的文本进行训练,这也不能解释其出色的表现,因为 DeepSeek 的成功更多归功于其独特的训练方法和技术创新。

总体而言,DeepSeek 的成就不应被这些无端的谣言所抹杀。作为一家中国公司,它不仅展示了强大的技术实力,还为全球 AI 社区贡献了许多有价值的创新。

文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:[email protected]