美国海军禁用DeepSeek_刷屏的DeepSeek，抄了英伟达的“老底”？

最近美国海军禁用DeepSeek_刷屏的DeepSeek，抄了英伟达的“老底”？事件在热度非常高，为大家准备了完整关于美国海军禁用DeepSeek_刷屏的DeepSeek，抄了英伟达的“老底”？事件的所有相关内容，如果大家想知道更多这方面的情况，请持续关注本站！

刷屏的DeepSeek，抄了英伟达的“老底”？

### DeepSeek V3：低成本高性能AI大模型的突破

DeepSeek V3的推出，标志着AI大模型在降低成本的同时保持高性能的重大进展。根据官方开源的53页论文，DeepSeek V3的生成速度达到每秒60个token，API价格仅为Claude 3.5 Sonnet的1/53。在知识类任务（包括MMLU、MMLU-Pro、GPQA和SimpleQA）上，DeepSeek V3的表现已经接近当前最佳模型Anthropic公司于10月发布的Claude-3.5-Sonnet-1022。尤其在美国数学竞赛（AIME 2024和MATH）以及全国高中数学联赛（CNMO 2024）中，DeepSeek V3的表现大幅超过了其他开源和闭源模型。

#### 低成本高性能的背后

DeepSeek V3的核心优势在于其“低成本≠低性能”的特点。这一特性主要得益于以下几项关键技术：

1. **混合专家架构（MoE）**：

- DeepSeek V3采用了包含256个专家的混合专家架构，每次计算选取前8个最相关的专家参与。这种架构通过动态选择部分专家模型处理输入，减少了不必要的计算开销，显著提升了训练和推理效率。

- 为了解决传统MoE模型的负载不均衡问题，DeepSeek V3引入了无辅助损失的负载均衡策略，通过动态调整专家偏置值，确保每个专家负载均衡，避免了传统辅助损失对模型性能的负面影响。

2. **多头潜在注意力机制（MLA）**：

- MLA通过引入低秩联合压缩技术，将键和值矩阵压缩为潜在向量，大大减少了内存占用和计算开销，尤其在处理长序列时表现出色。

3. **DualPipe流水线并行算法**：

- 这一算法通过将计算与通信时间完全重叠，最大化硬件资源利用率，从而显著提升训练效率。计算流水线负责模型的前向传播和反向传播，而通信流水线负责跨节点的数据传输（如梯度同步），两条流水线可以并行运行，互不干扰。

4. **FP8混合精度训练**：

- FP8是一种8位浮点数格式，其存储和计算开销仅为FP16的一半，FP32的四分之一。通过FP8技术，DeepSeek V3显著提升了训练效率和资源利用率，同时保持了模型性能。

5. **多令牌预测目标（MTP）**：

- 模型不仅预测下一个令牌，还同时预测后续的多个令牌，显著提高了数据利用率，减少了训练所需的样本数量，并加速文本生成过程。

#### 开源策略引发全球关注

DeepSeek V3的开源策略引发了全球开发者的广泛关注。OpenAI创始成员Karpathy称赞其“让在有限算力预算上进行模型预训练变得容易”。Meta科学家田渊栋则惊叹其训练技术为“黑科技”。最重要的是，这一策略降低了技术门槛，为中小企业和初创公司提供了低成本的高性能AI解决方案。

### 幻方量化与深度求索的关系

深度求索（DeepSeek）公司的成立和发展，与量化私募巨头幻方量化有着密切的关系。深度求索成立于2023年7月17日，创始人是幻方量化的创始人梁文锋。幻方量化是中国知名的量化私募公司，专注于利用算法和高性能计算进行金融投资，为深度求索提供了强大的资源支持。

幻方量化储备了大量的高性能计算集群和资金投入，使得深度求索能够在短时间内推出高性能的大模型。例如，幻方量化是“大厂”外唯一一家储备万张A100芯片的公司。DeepSeek V2的推理成本被降到每百万token仅1块钱，约等于Llama3 70B的1/7，GPT-4 Turbo的1/70——因此，DeepSeek被称为“AI界拼多多”。

### 对硬件供应商的影响

DeepSeek V3在仅使用2048块NVIDIA H800 GPU的情况下，完成了6710亿参数模型的训练，成本仅为557.6万美元，远低于其他顶级模型的训练成本（如GPT-4的10亿美元）。这意味着，AI大模型对算力投入的需求可能会从训练侧向推理侧倾斜，即未来对推理算力的需求将成为主要驱动力。

训练是指使用大量数据训练AI模型的过程，通常需要极高的计算能力和存储资源。训练过程通常在数据中心完成，耗时较长，成本高昂。推理则是指将训练好的模型应用于实际任务（如生成文本、识别图像、推荐商品等），通常需要低延迟和高吞吐量，可以在云端或边缘设备上进行。

随着各类大模型的成熟，许多企业和开发者可以直接使用预训练模型，而不需要从头训练。例如，GPT-4和本文所述的DeepSeek V3等模型已经提供了强大的通用能力。对于特定任务，企业通常只需对预训练模型进行微调，而不需要大规模训练，这减少了对训练算力的需求。与此同时，生成式AI在文本生成、图像生成等领域的应用迅速扩展，推理需求激增。例如，ChatGPT每天处理数百万用户的请求，需要强大的推理算力支持。在自动驾驶、智能家居、工业互联网等领域，推理需要在边缘设备上实时完成，这对低功耗、高性能的推理硬件提出了更高要求。

### 英伟达的挑战与机遇

英伟达的GPU（如A100、H100）在训练大模型时表现出色，提供了强大的计算能力和显存带宽。然而，在推理侧，英伟达的GPU能效比相对较低，尤其是在边缘计算场景中，功耗和成本成为瓶颈。以OpenAI为例，虽然它使用英伟达GPU支持ChatGPT的推理，但也在探索专用推理硬件以降低成本。特斯拉则使用自研的FSD芯片（基于NPU）进行推理，以满足低功耗和实时性需求。

单纯依赖硬件性能的提升已无法完全满足市场需求，而软件优化、算法创新和生态构建的重要性日益凸显。与其说这是对硬件供应商的挑战，不如说是一个转型的机遇。随着半导体工艺接近物理极限，硬件性能的提升速度放缓，单纯依赖硬件升级难以满足AI计算的需求。高端硬件（如GPU、TPU）的采购和维护成本高昂，且能耗较大，无论是在大规模普及中还是对于资金薄弱的中小企业来说，硬件成本费用都是一个沉重的负担。

DeepSeek带来的最大启示是，通过算法优化（如混合精度训练、模型压缩、量化等），可以在不增加硬件成本的情况下显著提升计算效率。英伟达等硬件商应更注重提供软件工具和框架（如CUDA、TensorRT），构建开发者生态，从单纯的硬件销售转向提供综合解决方案（如云服务、AI平台）。

SemiAnalysis创始人迪伦·帕特尔（Dylan Patel）指出，英伟达的竞争优势在于其软件和硬件的紧密结合，CUDA的高效性和易用性使得英伟达在AI芯片市场占据了主导地位。英伟达CEO黄仁勋也认为，CUDA正是英伟达从图形处理器公司转型为全球计算巨头的关键。

可以预见，未来硬件商将开发更多专用AI硬件（如NPU、TPU），并通过算法与硬件的协同设计，进一步提升计算效率和能效比。软硬件协同优化和综合解决方案是未来发展的重要路径。

以上内容就是小编为大家整理的美国海军禁用DeepSeek_刷屏的DeepSeek，抄了英伟达的“老底”？全部信息，如果大家还想了解更多后续或相关内容，请关注多特软件站，持续更新给大家带来最新消息！

了解更多消息请关注收藏我们的网站(news.duote.com)。