中国移动打造可靠AI算力底座 实现智算集群万卡长稳运行新突破
2025-10-14 21:31:14AI云资讯1932
近期,中国移动实现智算万卡池在长周期训练场景下持续稳定运行,训练稳定性达到行业领先水平,有效解决了超大规模算力集群调度、高可靠通信保障、故障智能诊断与快速自愈等业界难题。
随着人工智能技术的爆发式发展,大模型参数规模从百亿级向万亿级跃升,对智算基础设施的算力密度、稳定性和协同效率提出了前所未有的挑战。针对万卡级规模协同训练场景,全球普遍面临智算集群稳定性瓶颈问题。中国移动依托哈尔滨数据中心智算集群,主导研发全调度以太网(GSE)技术体系,打造慢卡慢网络风险识别、断点续训、AI运维智能体等新技术,攻克了超大规模智算基础设施运行的关键技术瓶颈。在协同管理机制上,中国移动以“五个一”卓越运维体系为指导,通过多轮流程优化攻坚,将故障处理流程大幅压缩,实现客户需求“一点响应”的端到端闭环。

中国移动“五个一”智算运维体系
在关键技术突破层面,团队重点攻关三大核心难题。一是创新慢卡慢网络风险识别技术,实现典型场景故障全部感知、提升诊断准确率;二是研发断点续训机制,实现故障节点自动隔离后训练状态的分钟级回滚,硬件故障导致的断训量下降50%;三是引入AI运维智能体,通过多层架构日志分析系统实现分钟级故障定界,覆盖25类软硬件故障解决方案,将故障处理时长从数天级降至分钟级。训练任务使用一万余张NPU板卡,全程保持集群可用率、服务可用率达到三个九的超高稳定性,其中NPU故障占比、光链路故障率大幅降低,充分验证了技术方案的有效性。

NPU端口异常导致性能劣化场景案例展示
在卓越运维能力方面,中国移动在黑龙江、广东打造了智算运维样板间,首创训推一体的智算统一运维体系,率先构建了覆盖应用、模型、算力全栈的智能运维能力,业界领先探索应用-模型-算力的最佳实践与黄金运维指标体系,依托AI技术实现分钟级智算业务故障智能处置修复和能效算效双优,支撑党政、金融、教育等十大行业优势卡位,赋能智能制造、生态保护、智慧政务、隐私保护等社会关键领域,支撑外部客户数百场智算样板间参观展示、近百次顶层规划和解决方案设计,创造超10亿元直接经济效益。

中国移动智算运维样板间正式发布
中国移动这一系列突破远超技术层面,从行业维度看,智算万卡池长稳训练时长的大幅度提升,标志着我国在超大规模智算集群管控领域已具备领先水平,两大智算运维样板间也必将充分发挥产业示范和标杆作用,不仅在国内形成示范,更为全球超大规模智算集群的训练与运维提供了中国方案和中国标准;从经济价值看,长稳运行能力直接将大模型训练周期缩短近三分之一,资源利用率近100%,为AI技术工业化量产奠定基础;从社会价值看,稳定的智算底座可支撑自动驾驶、生物医药、新材料研发等前沿领域的突破,加速科技创新与产业升级,成为推动新质生产力发展和经济社会数智化转型的核心引擎。
未来,中国移动将持续引领智算先锋产业,大力推动算力基础设施从“通算为主”向“云智算”转变,支撑多样化、个性化、极致化计算需求,构筑新一代智能算力服务体系,从支撑大模型研发到赋能实体经济,以领先的智算基础设施为我国人工智能产业加速升级提供坚实可靠的算力底座,为中国数字经济高质量发展注入澎湃动能。
相关文章
- 3亿用户的共同选择!中国移动APP以数智赋能让生活更美好
- 中国移动首发智算推理集群“运营黄金标准”
- 中国移动长三角(苏州)汾湖智算中心5号机房楼主体结构封顶,助力长三角算力布局
- 中国移动举办“赋能建功”2025年网络安全技能竞赛
- 中国移动呼和浩特分公司联合华为以“5G-A+VIP资源保障+游戏加速包”硬核护航工大王者荣耀电竞比赛
- 中国移动在杭州建成全国首个5G-A×AI大上行示范区,网络上行体验大幅跃升
- 中国移动与北京中关村学院、上海创智学院、 深圳河套学院签署合作共建协议
- 中国移动研究院发布“泛在实时通信网络原型1.0”
- 中兴通讯助力中国移动完成烟草行业蜂窝无源物联网试点验证
- 中国移动多项自智网络创新成果登顶TM Forum全球评测榜单
- 质量铸就,行业唯一!亨通光电蝉联中国移动光缆A级供应商
- 中国移动贵港分公司多措并举 筑牢安全生产防线
- “硅基萌宠” 来了!中国移动首款 “灵犀” 四足机器人开启家庭智能主动服务新纪元
- 中国移动联合华为完成业界首个PON+FTTO万兆无源物联光网技术现网验证
- 中国移动5G-A低空治理项目获全国大奖 为城市空中管理提供“苏州方案”
- 中国移动率先实现IP网络数字孪生技术规模应用 创新打造行业首个网络运维“黑灯工厂”









