韦乐平:随着模型规模的日益扩大,跨域训练是必然趋势
2025-04-23 15:56:48AI云资讯653
4月23日消息,在今天举办的“2025云网智联大会”上,SNAI推委会荣誉主席、原中国电信科技委主任韦乐平分享了对智算拉远的思考。
谈及大模型训练智算拉远的市场需求,韦乐平坦言,可以以网补算,提升闲散智算中心算力资源利用率。“面对大批分散部署、利用率很低的小规模智算中心,若能通过网络互联形成一个大型的逻辑智算池来适应规模日益增长的大模型训练,有望大幅提升闲散智算资源的利用率。”
与此同时,他指出,迈向未来,跨域训练是必然趋势。按照统计,大模型参数每1-2年增长10倍,而对应的GPU芯片的算力仅增长2-4倍,远低于模型规模的增速。随着模型规模的日益扩大,单体的算力、电力、空间资源终将受限,可能需要在园区甚至更大范围内由多个智算中心互联形成一个超级逻辑智算资源池,进行联合训练才有可能支撑超大模型的训练。

韦乐平强调:“至于推理与具体业务场景和访问量相关,更需要跨域实施。”
针对大模型训练智算拉远的挑战,韦乐平认为复杂的商用场景,势必会面临大量不同功能、性能的异构GPU、规模不同的AIDC的互联、不同业务场景、不同设备和不同组网方式、不同模型和不同参数的协同挑战。
此外,还面临一些技术挑战。在韦乐平看来,一是带宽收敛问题。“无收敛带宽普适性和前瞻性好,部署快,但成本太高;收敛比4-8时,带宽成本可以降至10%之内,但是只适用特定业务场景下的特定模型拆分方式,缺乏普适性和前瞻性。”
二是功能和性能问题。拉远后必然面对丢包、抖动乃至中断故障等诸多挑战,对ROCE网络的功能和性能有不少严格的要求。
统一管理和运维也是挑战之一。韦乐平认为,现有固化的组织架构和生产流程不适合快速部署逻辑统一的异地智算中心,需要对现有管理运维体系、生产流程、监控管理平台改造升级。
相关文章
- Seedance 2.0面向企业公测,豆包大模型日均Token使用量突破120万亿
- 凤凰卫视×火山引擎:达成深度合作!豆包大模型助力媒体智能升级
- AI模型盛行,从哪些维度能识别最好的AI面试产品?
- 冲击百亿美金估值:阶跃星辰如何定义大模型“下半场“
- 大模型智能体行业元年来临,腾讯/阿里/微美全息集体锁定AI+Agent高增长赛道!
- 因果大模型如何让垂直领域智能体“可解释”?零犀科技交付可靠结果的实践
- 微通人工智能科技到访百度智能云创新基地 共探大模型落地与企业AI转型新路径
- 昆仑万维携AIGC全家桶亮相2026中关村论坛,三大世界第一梯队模型正式发布
- 打造办公新模式,科大讯飞三大核心“AI+办公”大模型在成都发布
- 腾讯云与宇泛智能战略合作 推动机器狗“大小脑”模型优化
- 腾讯云与闪铸战略合作 混元3D大模型助力3D打印产业场景落地
- 同济大学 × 海光信息:筑牢高校大模型安全运行底座
- 重磅!中国首个民航端侧大模型标准发布 浩鲸科技牵头
- 26年大模型应用开发从现在开始学!稳了!
- 零犀科技:因果大模型+行业智能体,一家大模型应用标杆企业的技术底色与商业化路径
- 良策金宝AI 荣获 2026 GAIC“年度工程AI创新领军奖”,以垂直大模型推动“人工智能+工程设计”深度融合









