中国移动集团网络事业部蔡旭辉: 打造卓越智算运维新体系,推动AI规模应用
2024-10-16 11:04:38AI云资讯1388
9月28日,由中国信息通信研究院主办的2024中国算力大会·智算集成服务论坛在郑州成功举行。论坛邀请了产业内权威专家代表,围绕“AI算力基础设施建设、算力平台服务”等议题,分享企业级人工智能应用实践成果。中国移动集团网络事业部处长蔡旭辉发表了题为《打造卓越智算运维新体系,推动AI规模应用》的主题演讲。蔡旭辉表示,随着人工智能技术的飞速发展,中国移动立足产品、服务、生态,构建了全栈算智融合新体系。
“中国移动采用智算中心“N+X”架构体系。其中N节点是用来满足全网跨区域、跨省和AI大模型训练,以及区域内AI训练、精调、并发业务的需求,X节点是面向边缘产品和私有化产品的需求。”蔡旭辉介绍到。中国移动在呼和浩特和哈尔滨建设了的超大规模智算中心节点,其中呼和浩特节点被评为央企十大超级工程。

中国移动集团网络事业部处长蔡旭辉发表主题演讲
当前运营商业务已走进算力时代,区别于通用计算时代分层解耦的建设和运维模式,大规模的智算中心集群建设是极其复杂的系统工程。蔡旭辉列举了智算中心组网中的多个痛点,如模型并行计算带来的高频训练中断问题、硬件定位业务恢复时间长、上下层全栈可视难度大、跨组织协同响应难、多厂商设备联合调优难等挑战。
针对这些挑战,中国移动网络事业部秉持运维规范化、标准化和确定性的理念,构建了训练中断少、故障恢复快、服务支撑好的智算运营服务。包括重塑了智算运维质量文化,打造高可用架构方案,定义核心指标治理以及体系指标等,研发智能化的解决方案,进而提升运维效率。
在智算运维质量文化方面,高度重视AI智算运维人才的培养和培训,联合华为和合作伙伴构建了超过200人的专家团队,建立了体系化的智算人才培养机制。同时,打通智算运维从客户对接到故障处理的端到端系统,并构建总部、省公司、专业公司及客户的协同运维机制,实现数据层的可视,进而提升运维效率。
在智算架构方面,中国移动构建了构建端到端智算高可用架构,保障训推任务全流程的稳定性,并构建了AI任务全链路监控保障体系,提供120多种软硬件健康检查,分钟级集群故障定位定界,全方位助力智算集群管控调优。
在运维指标方面,中国移动围绕智算运维探索可靠性黄金指标,构建了80多个关键的指标体系。重点提升智算集群的模型算力运用率MFU,故障时长MTTR、长稳训练时长三个黄金指标,助力大模型训练任务高效稳定运行。同时,在运维服务方面,构建了中国移动算力运维平台,打造自主领先的AI+算力运维服务,采用SRE运维模式,根据运维场景化需求构建AI+全景观测、智算运维智能体等能力。目前该平台已经纳管通算智算设备近百万台,总体智算规模26.5亿FLOPS,日均消息处理量是110亿条,成为电信行业纳管规模最大的算力运维平台,支持中国移动智算中心的高效运维以及对客户的服务。
蔡旭辉分享了中国移动与华为等合作伙伴在提升大规模智算集群运维关键指标方面的合作成果,并介绍在全球运营商最大的单体智算中心——呼和浩特智算中心应用的智能运维方案,实现全域资源实时监控和故障快速定位。同时,中国移动还在智算中心网络故障诊断方面与高校深度合作,打造基于智算网络的AI全脑网络诊断智能体,覆盖故障监测与处理、性能优化、配置管理、流量分析与管理等场景,有效降低了智算网络的运维工作量。
最后,蔡旭辉倡议中国移动愿携手合作伙伴,共创中国智算产业繁荣生态,共同探索智能运维实践并分享创新成果,共同构建行业标准,合力攻坚共筑算力蓝图,加速推动AI大规模应用。
相关文章
- 中国移动与工联院签署全国装备制造业数字供应链平台合作协议
- 数智领跑!首个5G-A服务升级活动落地,中国移动河南公司四大新品焕新中原生活
- 中国移动:聚智向新,实干造“福”
- 速率超1G的中国移动5G-A超级上行网络来了
- 中国移动5G-A超级上行启航大会成功举办
- 中国移动发布系列安全技术创新成果
- 浩鲸科技受邀参加2026年中国移动中资出海数智赋能合作会议
- 中国移动:自智网络产品赋能5G专网智惠千行百业
- 中国移动举办2026年中资出海数智赋能合作会议
- 中国移动6G网络化协作通感成果入选2026央企原创技术策源地十大标志性成果
- 中国移动联合主办2026中关村论坛“量子科技与人工智能融合发展”平行论坛
- 中国移动2025年营收为10502亿元 同比增长0.9%
- 荣耀YOYO智能体携手中国移动灵犀智能体 打造全场景智能服务新范式
- 香港单体规模最大智算中心——中国移动环球智算中心开幕
- 中国移动与北京科技大学签署战略合作协议
- 央地协同!中国移动产业生态孵化中心·长三角算力网络创新基地启动
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由









