百度成功点亮昆仑芯三代万卡集群,将于近日点亮3万卡集群
2025-02-05 17:21:59AI云资讯19073
近日,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。百度智能云将进一步点亮3万卡集群。
国产昆仑芯万卡集群以及未来三万卡集群的建设,从硬件到软件,技术挑战是全方位的。而24年9月升级的百度百舸AI异构计算平台4.0,围绕落地大模型全旅程的算力需求,在集群创建、开发实验、模型训练、模型推理四大方面,能为企业提供“多、快、稳、省”的AI基础设施,在万卡集群的建设中发挥了至关重要的作用。

首先,突破硬件扩展性瓶颈,如卡间互联的拓扑限制,避免通信带宽成为瓶颈;同时,围绕芯片及集群功耗,基于万卡规模常规方案功耗可达十兆瓦或更高,采用创新性散热方案,从而解决万卡集群的能效与散热问题;完善模型的分布式训练优化,采用高效并行化任务切分策略,训练主流开源模型的集群MFU提升至58%;在提升稳定性方面,提供容错与稳定性机制,避免由于单卡故障率随规模指数上升而造成的万卡集群有效性大幅下降,保障有效训练率达到98%;最后,针对机间通信带宽需求,建设超大规模HPN高性能网络,优化拓扑结构,从而降低通信瓶颈,带宽有效性达到90%以上。

同时,昆仑芯作为百度自研的AI芯片,凭借其独特的技术优势,在百舸4.0的能力加持下,在生成式人工智能时代展现出了巨大的竞争力。
未来一年,将是各种AI原生应用爆发的黄金时期。自研芯片和万卡集群的建成带来了强大的算力支持,同时有效提升百度和客户的资源整体利用率,降低大模型训练成本,推动了模型降本的趋势,为整个行业提供了新的思路和方向。
随着国产大模型的兴起,万卡集群已从单纯算力供给逐渐向“有效”算力供给过渡,通过模型优化、并行策略、有效训练率提升、动态资源分配等手段,智能调度任务,将训练、微调、推理任务混合部署,最大化提升集群综合利用率,降低单位算力成本,从而真正发挥算力效能。百度智能云将始终陪伴在所有企业身旁,通过本次万卡集群点亮和应用落地,持续为企业提供源源不断的稳定、高效的算力动能。
相关文章
- 百度商家智能体对话近450万次,数字人线索直播助力商家转化率涨三成
- 500万用户追捧!百度地图岳云鹏文心AI副驾对话破亿,春节互动数据亮眼
- 白龙马变身文心AI副驾?岳云鹏携手百度地图上天津春晚,送出2亿红包!
- MongoDB与百度智能云达成战略合作,打造全球领先的AI原生数据库生态
- 百度百科推出国际版BaiduWiki,正式迈入全球化知识服务阶段
- Omdia报告:百度智能云领跑中国具身智能AI云市场
- 《运输策略蓝图》发布 百度杨楠:香港是孵化自动驾驶业务的宝地
- 百度千帆启动开发者大使计划 携手行业先行者共建Agent繁荣生态
- 诺科达智驾亮相百度 Apollo 生态大会,荣获 2025 年度杰出应用奖
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 手机也能用OpenClaw了!百度智能云发布移动端接入方案
- 以“高效现场 AI”回应产业升级需求 DEEPX 在百度 Moment 2026 展示 Physical AI 产业化实践成果
- 百度YY启动“熊力·聚星计划”携手刘天池选拔短剧新星
- 百度地图刘增刚:百度地图致力于成为AI时代的入口与基建
- 生态融合赋能出行 荣耀MagicOS携手百度地图共创智慧体验新高度
- Questel报告:百度大模型专利申请量全球第一,智能体、数字人专利申请量国内第一
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









