OpenAI宣布与AMD、英伟达、英特尔、微软及博通达成超级合作,合力加速AI发展

2026-05-07 07:54:28AI云资讯1518

(AI云资讯消息)OpenAI最新公布了一项超算网络合作计划,旨在加速大规模AI训练。为此,AMD、博通、英特尔、微软和英伟达正与OpenAI联手开发一种名为MRC(多路径可靠连接)的新协议,目标是提升大型训练集群中GPU的网络性能与韧性。

OpenAI 今日已通过开放计算项目(OCP)发布 MRC,以推动该协议在 AI 企业间更广泛地应用。

催生 MRC 需求的问题在于大规模 AI 模型训练时的数据传输。据称,即使只有一次数据传输延迟,也可能打乱整个过程,导致 GPU 闲置。造成这种延迟的主要原因与网络拥塞、链路及设备故障有关。集群规模越大,这个问题就越容易出现。

MRC 是面向下一代大规模 AI 超算平台的基础方案。OpenAI 表示,过去两年里,他们与 AMD、博通、英特尔、微软和英伟达合作开发了该协议,并将其内置于最新的 800 Gb/s 网络接口中。这样一来,AI 企业就能将单次传输分散到数百条无中断的路径上,在微秒级内绕开故障重新路由,并采用更简洁的网络控制平面。

MRC 标准将在现有 RoCE(融合以太网)上的 RDMA 技术基础上进行扩展,为 GPU 和 CPU 提供硬件加速的远程直接内存访问能力。OpenAI 已在其搭载英伟达 GB200 Blackwell GPU 的超算集群中部署了 MRC,这些超算用于训练前沿模型,包括位于得克萨斯州阿比林的甲骨文云基础设施(OCI),以及微软的 Fairwater 超算。


目前,MRC 已被用于在英伟达和博通的硬件上训练多款 OpenAI 模型。该协议将成为 OpenAI 星门(Stargate)超算的基础,这台超算由甲骨文云基础设施在得克萨斯州阿比林建造。星门超算计划在 2029 年前部署 10GW 的 AI 算力,过去三个月已部署超过 3GW。随着 MRC 面向整个 AI 行业开放可用,它为跨行业协作解决 AI 领域最棘手的问题铺平了道路,并进一步推动了该领域的发展。

相关文章

人工智能企业

更多>>

人工智能硬件

更多>>

人工智能产业

更多>>

人工智能技术

更多>>
AI云资讯(爱云资讯)立足人工智能科技,打造有深度、有前瞻、有影响力的泛科技信息平台。
合作QQ:1211461360微信号:icloudnews