中国移动打造可靠AI算力底座 实现智算集群万卡长稳运行新突破
2025-10-14 21:31:14AI云资讯1973
近期,中国移动实现智算万卡池在长周期训练场景下持续稳定运行,训练稳定性达到行业领先水平,有效解决了超大规模算力集群调度、高可靠通信保障、故障智能诊断与快速自愈等业界难题。
随着人工智能技术的爆发式发展,大模型参数规模从百亿级向万亿级跃升,对智算基础设施的算力密度、稳定性和协同效率提出了前所未有的挑战。针对万卡级规模协同训练场景,全球普遍面临智算集群稳定性瓶颈问题。中国移动依托哈尔滨数据中心智算集群,主导研发全调度以太网(GSE)技术体系,打造慢卡慢网络风险识别、断点续训、AI运维智能体等新技术,攻克了超大规模智算基础设施运行的关键技术瓶颈。在协同管理机制上,中国移动以“五个一”卓越运维体系为指导,通过多轮流程优化攻坚,将故障处理流程大幅压缩,实现客户需求“一点响应”的端到端闭环。

中国移动“五个一”智算运维体系
在关键技术突破层面,团队重点攻关三大核心难题。一是创新慢卡慢网络风险识别技术,实现典型场景故障全部感知、提升诊断准确率;二是研发断点续训机制,实现故障节点自动隔离后训练状态的分钟级回滚,硬件故障导致的断训量下降50%;三是引入AI运维智能体,通过多层架构日志分析系统实现分钟级故障定界,覆盖25类软硬件故障解决方案,将故障处理时长从数天级降至分钟级。训练任务使用一万余张NPU板卡,全程保持集群可用率、服务可用率达到三个九的超高稳定性,其中NPU故障占比、光链路故障率大幅降低,充分验证了技术方案的有效性。

NPU端口异常导致性能劣化场景案例展示
在卓越运维能力方面,中国移动在黑龙江、广东打造了智算运维样板间,首创训推一体的智算统一运维体系,率先构建了覆盖应用、模型、算力全栈的智能运维能力,业界领先探索应用-模型-算力的最佳实践与黄金运维指标体系,依托AI技术实现分钟级智算业务故障智能处置修复和能效算效双优,支撑党政、金融、教育等十大行业优势卡位,赋能智能制造、生态保护、智慧政务、隐私保护等社会关键领域,支撑外部客户数百场智算样板间参观展示、近百次顶层规划和解决方案设计,创造超10亿元直接经济效益。

中国移动智算运维样板间正式发布
中国移动这一系列突破远超技术层面,从行业维度看,智算万卡池长稳训练时长的大幅度提升,标志着我国在超大规模智算集群管控领域已具备领先水平,两大智算运维样板间也必将充分发挥产业示范和标杆作用,不仅在国内形成示范,更为全球超大规模智算集群的训练与运维提供了中国方案和中国标准;从经济价值看,长稳运行能力直接将大模型训练周期缩短近三分之一,资源利用率近100%,为AI技术工业化量产奠定基础;从社会价值看,稳定的智算底座可支撑自动驾驶、生物医药、新材料研发等前沿领域的突破,加速科技创新与产业升级,成为推动新质生产力发展和经济社会数智化转型的核心引擎。
未来,中国移动将持续引领智算先锋产业,大力推动算力基础设施从“通算为主”向“云智算”转变,支撑多样化、个性化、极致化计算需求,构筑新一代智能算力服务体系,从支撑大模型研发到赋能实体经济,以领先的智算基础设施为我国人工智能产业加速升级提供坚实可靠的算力底座,为中国数字经济高质量发展注入澎湃动能。
相关文章
- 中国移动联合华为打造的“AI+Network”运维转型解决方案荣获GSMA GLOMO“最佳AI使能网络解决方案奖”
- 中国移动自智网络创新成果斩获2026年 GSMA GLOMO大奖
- MWC 26|亚信科技携手中国移动斩获 GTI Awards-最佳移动AI应用奖
- 中国移动副总经理张冬:智启新纪元,联创新未来,绘就具身智能产业新图景
- 重塑蜂窝边界,赋能6G网络——中兴通讯携手中国移动在MWC26巴塞罗那联合发布GigaMIMO创新成果
- 中国移动研究院展示智能体通信网络(ACN)原型并首发意图感知白皮书
- 中国移动研究院发布智能体互联网 开放网络协议AONP框架及智能体网关
- 中国移动发布原创智算互联技术及全球首台百T级智算互联设备样机
- 中国移动副总经理李慧镝:AN L4驱动众智启新时代
- 直击MWC 2026,见证中国移动如何引领科技创新浪潮
- GSMA 、中国移动、中国电信、中国联通发起Mobile AI Innovation 倡议
- 硬核科技实力出圈!中国移动精彩亮相MWC 2026
- 中国移动自智网络项目荣获国际标准贡献奖
- 当春节都在卷情怀,中国移动携王耀庆爆笑上演《“移”个好网》
- 中国移动数据分析类智能体“九天AlphaData”获国际权威评测认可
- 中兴通讯联合中国移动斩获TM Forum “杰出资产贡献奖”:通信大模型赋能行业智能运维
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









