科大讯飞与华为联手，率先实现国产算力大规模跨节点专家并行集群推理

2025-03-12 14:33 来源：网络

科大讯飞联合华为！率先实现国产算力大规模跨节点专家并行集群推理

科大讯飞与华为携手突破国产算力集群MoE模型推理

近日，科大讯飞与华为在国产算力领域取得了一项重大进展。双方联合团队成功实现了大规模跨节点专家并行集群推理，这是业界首个基于国产算力的MoE（Mixture of Experts）模型推理解决方案。

软硬件协同创新，显著提升性能

联合团队通过软硬件深度协同，在多个关键技术层面上挖掘了硬件潜力，并完成了昇腾集群上的验证和部署。特别是在算子融合方面，团队在MLA（Machine Learning Accelerator）预处理阶段采用了Vector与Cube异构计算单元并行流水线技术，将多个小算子融合为原子级计算单元，从而消除了小算子下发的开销。这使得MLA前处理时延降低了50%以上，显著提升了整体性能。

混合并行策略优化通信效率

为了进一步优化通信效率，联合团队构建了TP（张量并行）+EP（专家并行）混合范式。对于MLA计算层，采用机内TP并行，充分利用机内高速互联的优势，减少了跨机通信损耗。同时，创新性地引入了MoE专家分层调度机制，将64个计算节点均衡分配给各个专家，定制了AllToAll通信协议，使专家数据交换效率提升了40%。此外，通过分层优化，跨机流量减少了60%，并且开发了路由专家负载均衡算法，确保卡间负载差异小于10%，从而使集群吞吐量提升了30%。