中国移动打造可靠AI算力底座 实现智算集群万卡长稳运行新突破
2025-10-14 21:31:14AI云资讯2025
近期,中国移动实现智算万卡池在长周期训练场景下持续稳定运行,训练稳定性达到行业领先水平,有效解决了超大规模算力集群调度、高可靠通信保障、故障智能诊断与快速自愈等业界难题。
随着人工智能技术的爆发式发展,大模型参数规模从百亿级向万亿级跃升,对智算基础设施的算力密度、稳定性和协同效率提出了前所未有的挑战。针对万卡级规模协同训练场景,全球普遍面临智算集群稳定性瓶颈问题。中国移动依托哈尔滨数据中心智算集群,主导研发全调度以太网(GSE)技术体系,打造慢卡慢网络风险识别、断点续训、AI运维智能体等新技术,攻克了超大规模智算基础设施运行的关键技术瓶颈。在协同管理机制上,中国移动以“五个一”卓越运维体系为指导,通过多轮流程优化攻坚,将故障处理流程大幅压缩,实现客户需求“一点响应”的端到端闭环。

中国移动“五个一”智算运维体系
在关键技术突破层面,团队重点攻关三大核心难题。一是创新慢卡慢网络风险识别技术,实现典型场景故障全部感知、提升诊断准确率;二是研发断点续训机制,实现故障节点自动隔离后训练状态的分钟级回滚,硬件故障导致的断训量下降50%;三是引入AI运维智能体,通过多层架构日志分析系统实现分钟级故障定界,覆盖25类软硬件故障解决方案,将故障处理时长从数天级降至分钟级。训练任务使用一万余张NPU板卡,全程保持集群可用率、服务可用率达到三个九的超高稳定性,其中NPU故障占比、光链路故障率大幅降低,充分验证了技术方案的有效性。

NPU端口异常导致性能劣化场景案例展示
在卓越运维能力方面,中国移动在黑龙江、广东打造了智算运维样板间,首创训推一体的智算统一运维体系,率先构建了覆盖应用、模型、算力全栈的智能运维能力,业界领先探索应用-模型-算力的最佳实践与黄金运维指标体系,依托AI技术实现分钟级智算业务故障智能处置修复和能效算效双优,支撑党政、金融、教育等十大行业优势卡位,赋能智能制造、生态保护、智慧政务、隐私保护等社会关键领域,支撑外部客户数百场智算样板间参观展示、近百次顶层规划和解决方案设计,创造超10亿元直接经济效益。

中国移动智算运维样板间正式发布
中国移动这一系列突破远超技术层面,从行业维度看,智算万卡池长稳训练时长的大幅度提升,标志着我国在超大规模智算集群管控领域已具备领先水平,两大智算运维样板间也必将充分发挥产业示范和标杆作用,不仅在国内形成示范,更为全球超大规模智算集群的训练与运维提供了中国方案和中国标准;从经济价值看,长稳运行能力直接将大模型训练周期缩短近三分之一,资源利用率近100%,为AI技术工业化量产奠定基础;从社会价值看,稳定的智算底座可支撑自动驾驶、生物医药、新材料研发等前沿领域的突破,加速科技创新与产业升级,成为推动新质生产力发展和经济社会数智化转型的核心引擎。
未来,中国移动将持续引领智算先锋产业,大力推动算力基础设施从“通算为主”向“云智算”转变,支撑多样化、个性化、极致化计算需求,构筑新一代智能算力服务体系,从支撑大模型研发到赋能实体经济,以领先的智算基础设施为我国人工智能产业加速升级提供坚实可靠的算力底座,为中国数字经济高质量发展注入澎湃动能。
相关文章
- 中国移动5G-A超级上行:以网络能力跃升驱动产业智能化升级
- 中国移动副总经理陈怀达:把握数智时代新机遇 开创信息通信新格局
- 灵犀智屏,全新启航:中国移动重磅发布灵犀Inside-灵犀智屏系列产品,全面升级家庭AI超级入口
- 从横州茉莉花海到北部湾浪花 中国移动书写数智广西新篇章
- 深耕算网融合, 华为全面助力中国移动构筑 Token 运营核心竞争力
- 深耕算网融合, 华为全面助力中国移动构筑Token运营核心竞争力
- 共建数亿目标用户 中国移动携手京东发布AI-eSIM“1+3+9”多生态智能服务体系
- 中国移动联合产业发布《5G-A超级上行技术演进及规划白皮书》
- “智绘”领跑设计生产速度,“AI电商·星璨”亮相中国移动云大会
- 中国移动研究院提出“DORA”可重构光互连架构,助力智算向光而行
- 中国移动研究院推出商用智算卡间互联全向智感(OISA)IP,构建开放智算互联新生态
- 中国移动研究院发布“芯合”2.5暨开放智算产业合作计划
- 中国移动研究院段晓东:从“AI Native”到“Token Native”,算力网络迈向发展新阶段
- 中国移动研究院发布全球首个集成物理层安全功能的400G光模块核心组件
- 中国移动发布全国一体化算力网技术创新体系
- 中国移动发布AI-eSIM多生态智能服务体系 锚定Token经济新入口
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源









