百度成功点亮昆仑芯三代万卡集群,将于近日点亮3万卡集群
2025-02-05 17:21:59AI云资讯19013
近日,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。百度智能云将进一步点亮3万卡集群。
国产昆仑芯万卡集群以及未来三万卡集群的建设,从硬件到软件,技术挑战是全方位的。而24年9月升级的百度百舸AI异构计算平台4.0,围绕落地大模型全旅程的算力需求,在集群创建、开发实验、模型训练、模型推理四大方面,能为企业提供“多、快、稳、省”的AI基础设施,在万卡集群的建设中发挥了至关重要的作用。
首先,突破硬件扩展性瓶颈,如卡间互联的拓扑限制,避免通信带宽成为瓶颈;同时,围绕芯片及集群功耗,基于万卡规模常规方案功耗可达十兆瓦或更高,采用创新性散热方案,从而解决万卡集群的能效与散热问题;完善模型的分布式训练优化,采用高效并行化任务切分策略,训练主流开源模型的集群MFU提升至58%;在提升稳定性方面,提供容错与稳定性机制,避免由于单卡故障率随规模指数上升而造成的万卡集群有效性大幅下降,保障有效训练率达到98%;最后,针对机间通信带宽需求,建设超大规模HPN高性能网络,优化拓扑结构,从而降低通信瓶颈,带宽有效性达到90%以上。
同时,昆仑芯作为百度自研的AI芯片,凭借其独特的技术优势,在百舸4.0的能力加持下,在生成式人工智能时代展现出了巨大的竞争力。
未来一年,将是各种AI原生应用爆发的黄金时期。自研芯片和万卡集群的建成带来了强大的算力支持,同时有效提升百度和客户的资源整体利用率,降低大模型训练成本,推动了模型降本的趋势,为整个行业提供了新的思路和方向。
随着国产大模型的兴起,万卡集群已从单纯算力供给逐渐向“有效”算力供给过渡,通过模型优化、并行策略、有效训练率提升、动态资源分配等手段,智能调度任务,将训练、微调、推理任务混合部署,最大化提升集群综合利用率,降低单位算力成本,从而真正发挥算力效能。百度智能云将始终陪伴在所有企业身旁,通过本次万卡集群点亮和应用落地,持续为企业提供源源不断的稳定、高效的算力动能。
相关文章
- 加速行业规范 百度慧播星参与制定数字人分级标准
- 百度国际MediaGo蝉联Global Tech Awards广告技术卓越奖
- 国内首批!百度秒哒完成 Nano Banana Pro 插件接入,为用户带来工作室级 AI 创作体验
- 超30万人集结!2025百度世界公开课成AI必学爆款
- 行业首发!百度慧播星发布实时互动数字人,可实现情感化多轮连麦
- 百度文库网盘发布GenFlow3.0,活跃用户超2000万,成全球最大通用智能体
- 百度重塑搜索系统,发布“百度猎户座”AI引擎,首次全面开放25年搜索技术与前沿AI能力
- 万马科技与百度阿波罗智能驾驶 “技术+市场”深度合作 打造无人驾驶商业化新方案
- 五年五芯,百度智能云宣布打造最硬AI云
- 鸿蒙版百度地图重磅更新,足迹、驾车、公交、打车体验全面进阶!
- AI内容创作新体验!鸿蒙版百度文库上架,核心功能齐备“即装即用”
- 唯一连续三年获奖AI公司!百度再拿世界互联网大会领先科技奖
- 百度开源的文心思考模型登顶全球总趋势榜,开源生态构建提速
- 沙利文AI云报告:阿里百度合计份额超五成,双雄格局初现
- 百度王海峰:通用大模型与场景大模型相辅相成 并非割裂
- 百度百科词条总量突破3000万,联合《大学科普》等多机构推出科普专刊









