科大讯飞联合华为率先实现国产算力大规模跨节点专家并行集群推理
2025-03-11 20:16:54AI云资讯5435
近日,科大讯飞携手华为在国产算力领域取得重大进展,双方联合团队率先突破国产算力集群上MoE模型的大规模跨节点专家并行集群推理,这是继DeepSeek公布其MoE模型训练推理方案后,业界首个基于国产算力的全新解决方案。
联合团队通过软硬件的深度协同创新,在多个关键技术层面深挖硬件潜力,完成昇腾集群上的验证和部署。在算子融合方面,团队在MLA预处理阶段通过Vector与Cube异构计算单元并行流水,并将多个小算子融合重构为原子级计算单元,消除小算子下发开销,MLA前处理时延降低50%+,实现性能的显著提升。
在混合并行策略和通信计算并行优化方面,团队构建了TP(张量并行)+EP(专家并行)混合范式:对MLA计算层采用机内TP并行,发挥机内高速互联优势,降低跨机通信损耗;创新MoE专家分层调度,64卡均衡分配专家计算节点,定制AllToAll通信协议,专家数据交换效率提升40%,构建跨机/机内双层通信架构,通过分层优化降低跨机流量60%;同时研发路由专家负载均衡算法,实现卡间负载差异小于10%,集群吞吐提升30%。
通过分布式架构创新与算法协同优化,联合团队在国产算力上实现了显著的性能提升。单卡静态内存占用缩减至双机部署的1/4,效率提升75%,专家计算密度增加4倍,推理吞吐提升3.2倍,端到端时延降低50%。
这一突破性的解决方案也将应用于讯飞星火深度推理模型的训练加速,预期训练时推理效率将提升200%。同时,基于该方案的推理引擎也实现了国产算力上DeepSeek V3和R1的高效推理。
近期,科大讯飞深度推理大模型星火X1也完成升级,在模型参数量比业界同行少一个数量级的情况下,星火X1的数学能力全面对标DeepSeek R1和OpenAI o1,在中文数学各项任务中均实现领先。科大讯飞始终坚定走国产化道路,星火X1也是当前唯一采用全国产算力训练的深度推理大模型。

科大讯飞将持续迭代升级星火大模型,并通过推理引擎加速为开发者带来更普惠的星火SparkAPI,星火大模型系列API以及星辰MaaS平台上开源的相关模型API成本也将进一步降低,为开发者提供更优惠、更可靠的自主可控新选择。
相关文章
- 科大讯飞发布玲珑Agent OS,让AI真正走进企业核心业务流
- 2026中国翻译协会年会召开,科大讯飞携多语言AI翻译产品矩阵亮相并获评5A级企业认证
- 科大讯飞佛山人工智能产业基地正式启用,助力南海构建AI产业生态
- 科大讯飞重磅布局智能穿戴,讯飞AI眼镜开启跨语言沟通新时代
- 科大讯飞AstronClaw升级,引领AI Agent从对话走向执行
- 科大讯飞亮相2026联合国中文日,让语言无界,让文化共鸣
- 打造办公新模式,科大讯飞三大核心“AI+办公”大模型在成都发布
- 科大讯飞AIPC华东制造基地正式投产,软硬智造一体出场即“数字员工”
- 科大讯飞与苏移集成签署战略合作协议,共推具身智能产业升级
- 从硬件集成到软核共研,科大讯飞与北京人形机器人创新中心深化合作
- 科大讯飞与金光集团签约战略合作,携手推动印尼人工智能转型
- MWC 2026 | 科大讯飞全球首发AI眼镜,多款AI产品全新升级
- 科大讯飞AI学习机T90系列重磅发布,开启个性化学习新时代
- 科大讯飞携手天津河西区:探路“人民城市”数字底座,为基层减负增效
- 科大讯飞ANYPIN获2026德国iF设计奖,以隐形科技重塑AI录音新体验
- 科大讯飞将亮相MWC2026,推动安全、可部署AI走向全球行业
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench









