运营商重磅首发！大规模专家并行推理集群实现3倍吞吐-AI云资讯

近日，移动云成功部署基于国产算力的 “大规模专家并行”推理集群，在移动云MaaS平台，COCA推理系统上线，实现DeepSeek MoE大模型跨节点高效集群推理。该方案突破性实现单卡吞吐提升3倍，Decode时延降低50%，推动人工智能技术革新。

当下，人工智能产业正处于迅猛发展的黄金时期。大模型MoE结构不断迭代，从少量大专家向大量小专家演进，这种转变犹如从"全能型教授"转向"专科医生团队"，让每个专家更专注于特定领域，从而显著提升模型的整体效果。然而，要让大模型真正普及开来，性能是绕不开的关键因素。在这样的背景下，大规模专家并行技术凭借其更大的吞吐能力和更低的时延，成为推理系统的重要发展方向。

强强联合，释放算力极致性能

移动云与华为强强联合，在软件技术和并行策略等多个维度展开深度创新，充分释放昇腾AI算力底座的极致性能。双方聚焦跨节点专家并行部署难题，将DeepSeek V3/R1大模型的288个专家巧妙分布到不同的卡上，实现权重占用减少75% 。同时，通过优化AlltoAll通信，效率提升了35%。在此基础上，叠加专家热点均衡算法，成功保障实例内负载均衡。

平台升级，推理服务高效稳定

移动云MaaS平台基于大规模专家并行方案构建大规模、高可靠、高性能的推理引擎能力体系，通过优化P&D算力分配提升资源利用率，采用拓扑感知调度提升跨节点通信效率，并依托多级容灾机制实现故障快速隔离与恢复，实现移动云MaaS服务在AI推理性能倍增的同时保障业务连续性，最终以更优成本效益为客户提供高效稳定的推理服务。

推理优化，COCA推理吞吐极致发挥

这一大规模专家并行推理集群中，COCA推理系统为大云磐石超节点和智算裸金属集群提供了强大的赋能支持。移动云借助定制化的优化算法和智能调度策略，将昇腾硬件的并行计算能力发挥到极致，大幅提升整体推理吞吐。更值得一提的是，在多个关键技术层面，移动云深入挖掘国产硬件的潜力，为国产算力的崛起贡献了坚实力量。

此次移动云大规模专家并行推理集群的成功部署，对于推动我国在AI底层架构和国产化技术协同领域的自主创新，具有重要意义。未来，移动云将为行业数字化转型提供关键技术支撑，助力千行百业在智能化浪潮中加速前行。

运营商重磅首发！大规模专家并行推理集群实现3倍吞吐

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术