韦乐平:随着模型规模的日益扩大,跨域训练是必然趋势
2025-04-23 15:56:48AI云资讯742
4月23日消息,在今天举办的“2025云网智联大会”上,SNAI推委会荣誉主席、原中国电信科技委主任韦乐平分享了对智算拉远的思考。
谈及大模型训练智算拉远的市场需求,韦乐平坦言,可以以网补算,提升闲散智算中心算力资源利用率。“面对大批分散部署、利用率很低的小规模智算中心,若能通过网络互联形成一个大型的逻辑智算池来适应规模日益增长的大模型训练,有望大幅提升闲散智算资源的利用率。”
与此同时,他指出,迈向未来,跨域训练是必然趋势。按照统计,大模型参数每1-2年增长10倍,而对应的GPU芯片的算力仅增长2-4倍,远低于模型规模的增速。随着模型规模的日益扩大,单体的算力、电力、空间资源终将受限,可能需要在园区甚至更大范围内由多个智算中心互联形成一个超级逻辑智算资源池,进行联合训练才有可能支撑超大模型的训练。

韦乐平强调:“至于推理与具体业务场景和访问量相关,更需要跨域实施。”
针对大模型训练智算拉远的挑战,韦乐平认为复杂的商用场景,势必会面临大量不同功能、性能的异构GPU、规模不同的AIDC的互联、不同业务场景、不同设备和不同组网方式、不同模型和不同参数的协同挑战。
此外,还面临一些技术挑战。在韦乐平看来,一是带宽收敛问题。“无收敛带宽普适性和前瞻性好,部署快,但成本太高;收敛比4-8时,带宽成本可以降至10%之内,但是只适用特定业务场景下的特定模型拆分方式,缺乏普适性和前瞻性。”
二是功能和性能问题。拉远后必然面对丢包、抖动乃至中断故障等诸多挑战,对ROCE网络的功能和性能有不少严格的要求。
统一管理和运维也是挑战之一。韦乐平认为,现有固化的组织架构和生产流程不适合快速部署逻辑统一的异地智算中心,需要对现有管理运维体系、生产流程、监控管理平台改造升级。
相关文章
- 大模型驱动算力需求扩容 寒武纪产品落地多行业
- Anthropic发布首款Mythos系列模型Claude Fable 5
- 斑马智能董事长张建锋:全模态端侧大模型将实现座舱主动智能
- 云知声发布 U2:为执行而生的原生智能体大模型,可自主拆解并完成 100+ 步复杂真实工作流
- 全球首个!大晓机器人推出全屋三维可交互世界模型 Kairos-HomeWorld
- 华为云联合TOP模型厂商发布“百模千态,云聚共赢”生态合作计划
- 中科闻歌重磅发布通用决策大模型Decitron决策机,内测邀请开启
- 华为云发布新一代ModelArts Next模型训推平台,使能模型深入企业场景
- 微筑科技:以异构物理信号融合,夯实工业场景世界模型数据底座
- 端侧AI构筑“新丝路”:面壁智能大模型开源与端侧推理框架的出海实践
- 告别“数据枯竭”,迈向“价值坐标”——艺恩发布《全球大模型数据市场白皮书》
- 星辰大模型能力升级 天翼智铃推出30秒长视频动画制作
- 微软发布首款AI推理模型MAI-Thinking-1
- Check Point发布智能体暴露验证功能,主动应对AI模型自主漏洞利用威胁
- 牧原携手阿里云共建养猪大模型 AI赋能传统产业升级
- 大模型落地“最后一公里“:Testin XAgent工程化评测实践
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 自变量机器人王昊:训练世界模型需付出“时间税”,解决模态对齐是当务之急
- 腾讯发布CodeBuddy Security,用AI Agent实现更高效的代码审计
- Twinkle x昇腾,率先实现Deepseek-V4系列模型高效训练
- 高德发布鸿蒙首个生成式 UI 开源框架 AGenUI,告别传统 UI 开发模式
- 发布即适配| 天数智芯全力支持腾讯混元Hy3 preview 开源落地,共推国内大模型产业普惠
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 端到端OCR模型第一!百度千帆Qianfan-OCR正式发布
- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代









