DeepSeek：5个被误解的真相，AI专家亲自揭秘

DeepSeek 被误读的 5 个真相，AI 大佬亲自揭秘

DeepSeek 的崛起与谣言：真相与误解

让我们再复习一遍：小红靠捧，大红靠命。DeepSeek 在这个春节爆火，自然也引来不少非议。尤其是在国际局势复杂多变的背景下，作为一家中国公司，DeepSeek 遭遇了许多无端的谣言。

前 Stability AI 研究主管 Tanishq Mathew Abraham 昨天挺身而出，以业内人士的身份，详细分析了 DeepSeek 的几大谣言，并澄清了一些关键事实。

谣言 1：DeepSeek 是一家突然冒出来的公司？

完全错误。到2025年1月，几乎所有生成式AI研究人员都已经听说过 DeepSeek。该公司甚至在完整发布 R1 模型前几个月就发布了预览版。DeepSeek 的首个开源模型 DeepSeek-Coder 于2023年11月发布，当时是业界领先的代码生成语言模型（LLM）。DeepSeek 在一年内持续发布前沿模型，其进步速度并不可疑，反而非常合理。

谣言 2：DeepSeek 的训练成本不是600万美元？

这是一个有趣的问题。有人怀疑 DeepSeek 为了掩盖非法获取计算资源而谎报成本。然而，根据 DeepSeek-V3 论文中的数据，该模型的基础版本确实花费了约550万美元。考虑到额外的强化学习训练费用，总成本可能略高，但仍在合理范围内。此外，DeepSeek 使用的是 H800 GPU 集群，而非 H100s，这也影响了成本估算。研究人员认为，DeepSeek 的高效运营和批量采购使得成本更低，这并没有任何不当之处。

谣言 3：DeepSeek 这么便宜，美国 AGI 公司都在浪费钱？

这种观点相当短视。DeepSeek 的确在训练中表现出更高的效率，但这并不意味着更多的计算资源是坏事。Scaling laws 表明，更多的计算资源可以带来更好的性能。虽然 DeepSeek 提供了一种更高效的训练方法，但这并不否定其他公司在大规模计算上的投入。事实上，许多 AGI 公司相信，通过不断增加计算资源，最终能够实现通用人工智能（AGI）和超级智能（ASI）。因此，DeepSeek 的成功并不会影响对 NVIDIA 的信心，因为更多的计算资源始终是有价值的。

谣言 4：DeepSeek 没有做出任何有意义的创新？

错误。DeepSeek 在语言模型的设计和训练方法上有很多创新，包括但不限于：

- 多头潜注意力 (MLA)：改进了传统的多头注意力机制，既节省内存又提高性能。

- GRPO 与可验证奖励：开发了一种高效的强化学习算法 GRPO，能够在不依赖复杂技术的情况下复制类似 OpenAI 的结果。

- DualPipe：设计了一种新的多 GPU 训练方案，显著提高了训练效率和速度。

这些创新不仅提升了 DeepSeek 的模型性能，还为整个 AI 社区提供了宝贵的开源资源。

谣言 5：DeepSeek 正在“汲取”ChatGPT 的知识？

这一说法缺乏证据支持。OpenAI 和一些人士声称 DeepSeek 使用蒸馏技术从 ChatGPT 获取知识，但这种说法存在误导。蒸馏通常指的是在所有可能的下一个词的概率上进行训练，而 ChatGPT 并未公开这些信息。即使假设 DeepSeek 使用了 ChatGPT 生成的文本进行训练，这也不能解释其出色的表现，因为 DeepSeek 的成功更多归功于其独特的训练方法和技术创新。

总体而言，DeepSeek 的成就不应被这些无端的谣言所抹杀。作为一家中国公司，它不仅展示了强大的技术实力，还为全球 AI 社区贡献了许多有价值的创新。