阿里云磐久AI Infra 2.0在OCP峰会上展现AI互连技术新突破
2024-10-25 15:15:32AI云资讯27118
2024年10月15日至17日,全球基础设施和开放计算领域的年度盛会——开放计算全球峰会(OCP Global Summit)在美国加州圣何塞盛大举行。本届峰会以“从创新到影响力(From Ideas to Impact)”为主题,吸引了全球超过7000名专业人士参与。峰会特别关注了AI基础设施技术生态的建设,尤其是OCP基金会宣布其人工智能开放系统战略计划后,人工智能特别关注议程(Special Focus Tracks)成为焦点。
在此次峰会上,阿里云的磐久AI Infra 2.0服务器成为了讨论的热点。这款服务器是阿里云在AI领域的重要突破,它不仅提供了强大的计算能力,还通过与UALink联盟的合作,推动了AI服务器互连技术的发展。文芳志,阿里云服务器研发资深总监,与UALink联盟主席Kurtis Bowman联合发表了题为《UALink: Pioneering the AI Accelerator Revolution》的演讲,分享了他们在AI服务器Scale UP互连技术领域的发展趋势、UALink标准的路线图,以及UALink联盟和ALink System产业生态未来的合作潜力。
UALink协议是由行业领先的AI芯片、服务器和CSP厂商联合发起的一项新标准,旨在彻底改变AI服务器Scale UP互连技术生态系统。这项协议以其高性能内存语义访问的原生支持、显存共享,支持Switch组网模式,以及超高带宽、超低时延能力等性能优势,正在迅速构建起一个AI服务器Scale UP互连技术的超级开放生态。UALink联盟计划于10月底正式成立并开始吸纳成员加入,并在年底对外发布第一版UALink spec。

UALink标准的推广和实施,特别是在中国市场,是一个巨大的挑战。为了应对这一挑战,ALink System(ALS)产业生态应运而生。ALS提供了具备性能竞争力和统一标准的互连系统,包括ALS-D数据面和ALS-M管控面两个主要组成部分,为AI训练和推理场景提供丰富的能力和特性支持。
ALS-D将支持UALink国际标准,形成极具性能竞争力的数据面方案。它支持高性能内存语义访问、显存共享,支持Switch组网模式,性能上具备超高带宽、超低时延能力外,还增加定义了在网计算等特性。而ALS-M则为不同芯片方案提供标准化的接入方案,支持开放生态和厂商专有互连协议的统一软件接口,为云计算等集群管理场景提供灵活和弹性的配置能力。

阿里云自主设计的磐久AI Infra 2.0服务器遵循ALink System的规范,体现了开放生态、高能效、高性能和高可用的设计理念。这款服务器定义了AI计算节点和Scale Up/Scale Out互连系统,可以在统一的硬件架构下支持业界主流AI方案,推动了AI领域的“一云多芯”发展。
互连系统ALink System全面兼容UALink生态,与行业伙伴共建超高性能、超大规模的Scale UP集群互连能力。一级互连支持64-80个节点,二级互连可达2000个以上节点,提供了PB级共享显存和TB级互连带宽。
磐久AI Infra 2.0服务器集成了阿里自研的CIPU 3.0芯片,支持高带宽大规模AI服务器实现Scale Out网络扩展,同时满足云网络弹性、安全的要求。在硬件工程方面,服务器单机柜支持最大80个AI计算节点,采用400V PSU,单体供电效率可达98%,整体供电效率提高2%。散热设计上,机柜级液冷方案可以根据实际负载动态调整CDU冷却能力来降低能耗,单柜冷却系统节能30%。在运维管理上,全新的CableCartridge后维护设计,支持全盲插,零理线易运维、零误操作,维护效率提升50%。
在可靠性方面,磐久AI Infra 2.0服务器支持弹性节点、智能路由、高可靠供电、分布式CDU等技术,可以实时监控、探测各种硬件故障并自愈,硬件的故障域也缩减到节点级。
阿里云在ALink System产业生态建设上,秉持开放合作的策略,推动互连技术领域的发展和繁荣。自ALink System产业生态在开放数据中心大会上正式发布以来,已有20多家AI芯片、互连芯片、服务器整机硬件和IP设计厂商加入,成员单位已就相关协议标准制定和实行路径选择展开交流。
阿里云不仅是UALink的积极支持者和ALink System产业生态的牵头者,还是OCP、CXL、UCIe和UEC等多个互连技术行业组织的创始成员或技术委员会成员,并用实际行动支持相关开放互连技术标准的制定和落地。通过这些合作和努力,阿里云磐久AI Infra 2.0服务器与UALink联盟的携手,不仅展示了阿里云在AI基础设施领域的技术实力和创新能力,也体现了阿里云在推动开放计算和AI技术发展中的领导地位。随着技术的不断进步和合作的深入,我们有理由相信,阿里云将继续引领AI技术的未来发展,为全球客户提供更加强大、灵活和高效的AI基础设施解决方案。
相关文章
- 黄飞对话阿里云AI专家:当零售中台拥有AI大脑,未来将去向何方?
- 生态共进:昆仑智云以阿里云认证伙伴身份,破解AI落地“最后一公里”
- 昆仑智云:以阿里云认证生态伙伴身份,破解企业AI“三无困境”
- 全来店亮相 2026 阿里云 PolarDB 开发者大会
- 阿里云支持鹰角3D新游《明日方舟:终末地》全球开服
- 风行在线携手阿里云通义大模型,AI漫剧创作平台“橙星梦工厂”,引领数字内容生产新范式!
- 阿里云AI火花大会:AI加速从单点创新迈向规模化落地
- 灵机一动亮相阿里云展:定义AI硬件的智能体操作平台
- 玻色量子计算云服务上线阿里云!面向全球开放,直面国际量子算力竞争!
- DFRobot亮相阿里云通义智能硬件展,软硬融合AI视觉方案获高度关注
- 定义AI时代隐私计算新标准,YoooTek联合阿里云无影发布 Glass-Box 架构
- 神眸携秋季新品亮相阿里云“秒物·智趣” 开启智能影像新纪元
- 阿里云AI Landing Zone正式发布,助力企业从“上好云”到“用好AI”的战略升级
- 爱诗科技与阿里云达成全栈AI合作 AI视频服务全球化再启航
- 快鹭科技新品入驻阿里云云市场:以AI赋能办公解决方案,开启企业智能协作新时代
- 融云与阿里云联手,共同按下“AI+通信云”生态加速键
人工智能企业
更多>>人工智能硬件
更多>>人工智能产业
更多>>人工智能技术
更多>>- 云知声Unisound U1-OCR大模型发布!首个工业级文档智能基础大模型,开启OCR 3.0时代
- 基石智算上线 MiniMax M2.5,超强编程与智能体工具调用能力
- 昇腾原生支持,科学多模态大模型Intern-S1-Pro正式发布并开源
- 百度千帆深度研究Agent登顶权威评测榜单DeepResearch Bench
- 在MoltBot/ClawdBot,火山方舟模型服务助力开发者畅享模型自由
- 教程 | OpenCode调用基石智算大模型,AI 编程效率翻倍
- 全国首个!上海上线规划资源AI大模型,商汤大装置让城市治理“更聪明”
- 昇思人工智能框架峰会 | 昇思MindSpore MoE模型性能优化方案,提升训练性能15%+









