英伟达Rubin平台采用HBM4内存实现50 PetaFLOPs算力,搭载88核Olympus架构Vera CPU,相较Blackwell性能提升5倍

2026-01-06 08:32:00AI云资讯2148

(AI云资讯消息)英伟达今日正式发布Rubin人工智能平台,该平台将成为下一代数据中心的核心架构,性能较Blackwell提升5倍。此前业界普遍预期英伟达将在GTC大会上发布相关更新。鉴于人工智能领域的蓬勃发展与CES展会期间全行业对AI技术的高度聚焦,英伟达决定将其重磅AI平台的亮相时间稍作提前。

英伟达Rubin平台将由六颗芯片构成,目前所有芯片已完成晶圆厂生产并运抵英伟达实验室进行测试。这些芯片包括:Rubin GPU(集成3360亿晶体管)、Vera CPU(集成2270亿晶体管)、用于互连的第六代NVLink交换机、用于网络连接的CX9网卡与BF4 DPU、用于硅光互联的Spectrum-X 102.4T共封装光学模块。

这些芯片组合将使Rubin平台在DGX、HGX和MGX系列系统中全面运行。每个数据中心的核心将是英伟达Vera Rubin超级芯片,其配备两颗Rubin GPU、一颗Vera CPU,并采用HBM4和LPDDR5x配置提供海量内存。英伟达Rubin技术的核心亮点包括:第六代NVLink(3.6 TB/s纵向扩展带宽)、Vera CPU(定制化Olympus核心架构)、Rubin GPU(50 PetaFLOPS NVFP4 Transformer引擎)、第三代机密计算(首个机架级可信执行环境)、第二代RAS引擎(支持零停机健康检测)。

首先来看Rubin GPU,这款芯片采用双光罩模片设计,每个模片都集成了大量计算核心与张量核心。该芯片专为AI密集型工作负载打造,可提供50 PetaFLOPS的NVFP4推理算力与35 PetaFLOPS的NVFP4训练性能,分别达到Blackwell芯片的5倍和3.5倍。芯片同时搭载HBM4内存,每芯片内存带宽最高达22 TB/s,较Blackwell提升2.8倍;CPU侧NVLink带宽为3.6 TB/s,实现2倍于Blackwell的传输速率。

针对Vera CPU,英伟达研发了新一代定制化Arm架构(代号Olympus)。该芯片集成88个核心、176线程(支持英伟达空间多线程技术),配备1.8 TB/s NVLink-C2C一致性内存互联通道,支持1.5 TB系统内存(为Grace平台的3倍),通过SOCAMM LPDDR5X实现1.2 TB/s内存带宽,并具备机架级机密计算能力。这些特性共同带来相较于Grace平台2倍的数据处理、压缩及CI/CD性能提升。

第六代NVLink交换机为Rubin平台提供网络架构,采用400G SerDes技术,每CPU支持3.6 TB/s全对全带宽,总带宽达28.8 TB/s,支持14.4 TFLOPS FP8网络内计算,并采用100%液冷设计方案。

网络连接由最新ConnectX-9与BlueField-4模块驱动。ConnectX-9超级网卡提供1.6 TB/s带宽,采用200G PAM4 SerDes技术,配备可编程RDMA与数据路径加速器,具备顶级安全性,并为超大规模AI集群进行深度优化。

BlueField-4是一款面向智能网卡与存储处理器的800G DPU。该芯片集成64核Grace CPU与ConnectX-9网络模块,相比BlueField-3实现2倍网络传输能力、6倍计算性能与3倍内存带宽提升。

所有这些技术最终汇聚于英伟达Vera Rubin NVL72机架系统,相较Blackwell平台实现显著性能跃升,具体数据如下:NVFP4推理性能提升5倍(达3.6 EFLOPS)、NVFP4训练性能提升3.5倍(达2.5 EFLOPS)、LPDDR5x内存容量提升2.5倍(达54 TB)、HBM4显存容量提升1.5倍(达20.7 TB)、HBM4显存带宽提升2.8倍(达1.6 PB/s)、纵向扩展带宽提升2倍(达260 TB/s)。

英伟达同时发布Spectrum-X以太网共封装光学解决方案,提供102.4 Tb/s横向扩展交换架构,集成200G硅光共封装技术,在大规模部署中可实现95%的有效带宽利用率。该系统能效提升5倍,可靠性增强10倍,应用程序运行效率提高5倍。

针对Rubin SuperPOD系统,英伟达同时推出推理上下文内存存储平台。该平台专为千亿级参数推理场景构建,并与英伟达Dynamo、NIXL及DOCA等软件解决方案实现全面集成。

总而言之,英伟达将在其顶尖的DGX SuperPOD中部署Rubin平台,采用8组Vera Rubin NVL72机架。此外,针对主流数据中心市场,英伟达还将推出NVIDIA DGX Rubin NVL8配置方案。

凭借这些技术进步,相比Blackwell GB200平台,英伟达Rubin平台将推理token成本降低10倍,训练MoE模型所需GPU数量减少4倍。Rubin生态系统已获得众多合作伙伴支持并实现全面量产,首批芯片将于今年晚些时候交付客户。

相关文章

人工智能企业

更多>>

人工智能硬件

更多>>

人工智能产业

更多>>

人工智能技术

更多>>
AI云资讯(爱云资讯)立足人工智能科技,打造有深度、有前瞻、有影响力的泛科技信息平台。
合作QQ:1211461360微信号:icloudnews