OpenAI宣布与AMD、英伟达、英特尔、微软及博通达成超级合作，合力加速AI发展-AI云资讯

（AI云资讯消息）OpenAI最新公布了一项超算网络合作计划，旨在加速大规模AI训练。为此，AMD、博通、英特尔、微软和英伟达正与OpenAI联手开发一种名为MRC（多路径可靠连接）的新协议，目标是提升大型训练集群中GPU的网络性能与韧性。

OpenAI 今日已通过开放计算项目（OCP）发布 MRC，以推动该协议在 AI 企业间更广泛地应用。

催生 MRC 需求的问题在于大规模 AI 模型训练时的数据传输。据称，即使只有一次数据传输延迟，也可能打乱整个过程，导致 GPU 闲置。造成这种延迟的主要原因与网络拥塞、链路及设备故障有关。集群规模越大，这个问题就越容易出现。

MRC 是面向下一代大规模 AI 超算平台的基础方案。OpenAI 表示，过去两年里，他们与 AMD、博通、英特尔、微软和英伟达合作开发了该协议，并将其内置于最新的 800 Gb/s 网络接口中。这样一来，AI 企业就能将单次传输分散到数百条无中断的路径上，在微秒级内绕开故障重新路由，并采用更简洁的网络控制平面。

MRC 标准将在现有 RoCE（融合以太网）上的 RDMA 技术基础上进行扩展，为 GPU 和 CPU 提供硬件加速的远程直接内存访问能力。OpenAI 已在其搭载英伟达 GB200 Blackwell GPU 的超算集群中部署了 MRC，这些超算用于训练前沿模型，包括位于得克萨斯州阿比林的甲骨文云基础设施（OCI），以及微软的 Fairwater 超算。

目前，MRC 已被用于在英伟达和博通的硬件上训练多款 OpenAI 模型。该协议将成为 OpenAI 星门（Stargate）超算的基础，这台超算由甲骨文云基础设施在得克萨斯州阿比林建造。星门超算计划在 2029 年前部署 10GW 的 AI 算力，过去三个月已部署超过 3GW。随着 MRC 面向整个 AI 行业开放可用，它为跨行业协作解决 AI 领域最棘手的问题铺平了道路，并进一步推动了该领域的发展。

OpenAI宣布与AMD、英伟达、英特尔、微软及博通达成超级合作，合力加速AI发展

相关文章

人工智能企业

人工智能硬件

人工智能产业

人工智能技术