近日,科大讯飞与华为在国产算力领域取得了一项重大进展。双方联合团队成功实现了大规模跨节点专家并行集群推理,这是业界首个基于国产算力的MoE(Mixture of Experts)模型推理解决方案。
联合团队通过软硬件深度协同,在多个关键技术层面上挖掘了硬件潜力,并完成了昇腾集群上的验证和部署。特别是在算子融合方面,团队在MLA(Machine Learning Accelerator)预处理阶段采用了Vector与Cube异构计算单元并行流水线技术,将多个小算子融合为原子级计算单元,从而消除了小算子下发的开销。这使得MLA前处理时延降低了50%以上,显著提升了整体性能。
为了进一步优化通信效率,联合团队构建了TP(张量并行)+EP(专家并行)混合范式。对于MLA计算层,采用机内TP并行,充分利用机内高速互联的优势,减少了跨机通信损耗。同时,创新性地引入了MoE专家分层调度机制,将64个计算节点均衡分配给各个专家,定制了AllToAll通信协议,使专家数据交换效率提升了40%。此外,通过分层优化,跨机流量减少了60%,并且开发了路由专家负载均衡算法,确保卡间负载差异小于10%,从而使集群吞吐量提升了30%。
通过分布式架构创新和算法协同优化,联合团队在国产算力平台上实现了显著的性能提升。单卡静态内存占用缩减至双机部署的1/4,效率提升了75%,专家计算密度增加了4倍,推理吞吐量提升了3.2倍,端到端时延降低了50%。
科大讯飞研究院表示,这一突破性的解决方案不仅将应用于讯飞星火深度推理模型的训练加速,预期训练时推理效率将提升200%,还将支持DeepSeek V3和R1的高效推理。未来,这项技术有望推动更多应用场景的发展,助力国产算力生态的繁荣。
文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:[email protected])
相关阅读
近期热点
最新资讯