韦乐平:随着模型规模的日益扩大,跨域训练是必然趋势
2025-04-23 15:56:48AI云资讯480
4月23日消息,在今天举办的“2025云网智联大会”上,SNAI推委会荣誉主席、原中国电信科技委主任韦乐平分享了对智算拉远的思考。
谈及大模型训练智算拉远的市场需求,韦乐平坦言,可以以网补算,提升闲散智算中心算力资源利用率。“面对大批分散部署、利用率很低的小规模智算中心,若能通过网络互联形成一个大型的逻辑智算池来适应规模日益增长的大模型训练,有望大幅提升闲散智算资源的利用率。”
与此同时,他指出,迈向未来,跨域训练是必然趋势。按照统计,大模型参数每1-2年增长10倍,而对应的GPU芯片的算力仅增长2-4倍,远低于模型规模的增速。随着模型规模的日益扩大,单体的算力、电力、空间资源终将受限,可能需要在园区甚至更大范围内由多个智算中心互联形成一个超级逻辑智算资源池,进行联合训练才有可能支撑超大模型的训练。
韦乐平强调:“至于推理与具体业务场景和访问量相关,更需要跨域实施。”
针对大模型训练智算拉远的挑战,韦乐平认为复杂的商用场景,势必会面临大量不同功能、性能的异构GPU、规模不同的AIDC的互联、不同业务场景、不同设备和不同组网方式、不同模型和不同参数的协同挑战。
此外,还面临一些技术挑战。在韦乐平看来,一是带宽收敛问题。“无收敛带宽普适性和前瞻性好,部署快,但成本太高;收敛比4-8时,带宽成本可以降至10%之内,但是只适用特定业务场景下的特定模型拆分方式,缺乏普适性和前瞻性。”
二是功能和性能问题。拉远后必然面对丢包、抖动乃至中断故障等诸多挑战,对ROCE网络的功能和性能有不少严格的要求。
统一管理和运维也是挑战之一。韦乐平认为,现有固化的组织架构和生产流程不适合快速部署逻辑统一的异地智算中心,需要对现有管理运维体系、生产流程、监控管理平台改造升级。
相关文章
- 深耕政法大模型,中信科移动旗下虹服公司打造“一网统管”社会治理新典范
- TransAI发布全球首个外贸沟通AI大模型,不会外语也能做遍全球生意
- 全球首款结合深度学习与大语言模型的酒店房型匹配系统:途灵科技TourMind 正式推出MappingMind解决方案
- 云栖大会|斑马智行将发布全球首个全模态端侧大模型实车方案
- 戴尔科技:从“模型驱动”到“数据驱动”,重塑企业智能化转型新范式
- 鸿蒙版高德地图重磅更新,VLM交通视觉语言大模型、天气提醒护航十一出行
- 蘑菇车联凭MogoMind大模型获评新科技百强 ,以AI重构未来城市运行逻辑
- 以科技创新推动产业创新专题 | 5倍提升!ShortDF突破多模态模型质、效困局
- 三维模型上产线 | 新迪数字助力美云智数打通研发“最后一公里”
- 陈天桥创立的AI公司MiroMind成为全球顶尖预测型大模型,性能领先行业基准
- 华东师大与华为联合发布《大模型背景下高等教育数智化转型研究报告》
- 2025世界制造业大会|科大讯飞用十项“黑科技”破解制造强国密码,发布羚羊工业大模型3.0
- 2025H1大模型公有云中国第一!火山引擎市场份额近半
- 声网 AI 模型评测平台新增多项评测维度 模型选择数量提升3倍
- 科大讯飞联合华为发布“星火教育、医疗大模型场景一体机解决方案”
- 跨维智能与腾讯云达成战略合作,以生成式世界模型驱动具身智能高效落地