OpenAI、AMD・Broadcom・Intel・Microsoft・NVIDIAと新ネットワーク規格MRCを発表、AIスーパーコンピュータの障害回復をマイクロ秒単位に短縮

AI 訓練のボトルネックがネットワーク層であることが業界共通認識になり、Ethernet ベースの標準化路線が固まる

OpenAI、AMD・Broadcom・Intel・Microsoft・NVIDIA と新ネットワーク規格 MRC を発表

何が変わったか

これまで大規模 AI 訓練のネットワークは、各転送を単一経路で送り、リンク・スイッチ障害が起きると数秒から数十秒のスケールでクラスタ全体が停滞する設計だった。

OpenAI は AMD・Broadcom・Intel・Microsoft・NVIDIA と共同で、 新ネットワークプロトコル「MRC (Multipath Reliable Connection, 多経路高信頼接続)」を発表した。MRC はパケットを数百経路に同時分散させてコア輻輳を解消し、障害発生時にはマイクロ秒スケールで迂回経路に切り替える。10 万 GPU 超のクラスタを Ethernet スイッチ 2 階層で接続でき、従来の 800 Gb/s ネットワークが必要としていた 3〜4 階層構成より電力・部品数・コストを削減する。

MRC が複数経路にパケットを同時分散する図解 — MRC は同期 AI 訓練を遅延させる輻輳を防ぐため、パケットを複数経路に同時分散させる。

社会にどんな影響があるか

主たる影響として、AI スーパーコンピュータの計算性能ボトルネックが「GPU 性能」から「GPU 間通信」に移ったことが業界共通認識として明示化された。MRC が NVIDIA GB200 クラスタ (Oracle の Abilene サイト・Microsoft Fairwater) で既に運用されており、ChatGPT・Codex の最近の最先端モデル訓練中に 4 つの tier-1 スイッチを再起動しても訓練ジョブと調整不要で継続できたという。NVIDIA の InfiniBand ではなく Ethernet ベースで標準化される点も、ハードウェア囲い込みからの脱却という意味を持つ。

副作用として、AI インフラの寡占構造はむしろ強化される側面もある。MRC を実装するには 6 社の協調設計済みハードウェアが揃う必要があり、フロンティアモデル訓練の参入障壁は技術スタック全体で上昇する。

俺にどんな影響があるか

直接の業務影響は薄いが、ネットワークプロトコルが「ベンダー独占」から「業界標準」へ動く構造変化は、産学連携の文脈でも参照点になる。研究室の技術を企業に移転する際、特許の独占ライセンスではなく、業界標準への寄与という形でエコシステム全体を太らせる戦略が、長期的な利益最大化につながる場面がある。MRC はその好例。

ニュースの詳細

MRC は OpenAI・AMD・Broadcom・Intel・Microsoft・NVIDIA の 6 社共同開発によるネットワークプロトコルで、2026 年 5 月 7 日に Open Compute Project (OCP) で仕様 1.0 が公開された。同時に研究論文も発表されている。

技術仕様の要点は次の通り: パケットを単一経路でなく数百経路に同時分散することで、ネットワークコアの輻輳を解消; リンク・スイッチ障害をマイクロ秒スケールで検出して迂回; multi-plane ネットワーク設計により 10 万 GPU 超を Ethernet スイッチ 2 階層で接続可能。従来 800 Gb/s ネットワークが必要としていた 3〜4 階層構成に対して、消費電力・部品数・総コストを削減する。

実運用例として、OpenAI の最大規模 NVIDIA GB200 スーパーコンピュータ群 (Oracle Cloud Infrastructure の Abilene, Texas サイト、および Microsoft Fairwater スーパーコンピュータ) に MRC が既に展開されている。ChatGPT・Codex 向けの最近のフロンティアモデル訓練中、 OpenAI は 4 つの tier-1 スイッチを再起動する必要があったが、MRC のおかげで訓練ジョブを実行するチームとの調整は不要だったという。

キーワード解説

Open Compute Project (OCP) とは、Facebook (現 Meta) が 2011 年に立ち上げたデータセンター向けハードウェア仕様のオープン標準化プロジェクト。Microsoft, Intel, Google, Apple 等が参加し、サーバ・ストレージ・ネットワーク機器のリファレンスデザインを公開している。MRC 1.0 はこの OCP 配下で公開された。

multi-plane ネットワーク とは、データを複数の独立したネットワーク層 (plane) に分散して伝送する設計。1 つの plane に障害が起きても他の plane で通信を継続でき、レイテンシ揺らぎも平準化される。AI 訓練のような同期通信集約ワークロードに特に有効。

InfiniBand とは、NVIDIA (旧 Mellanox) が主導する高速ネットワーク規格で、AI スーパーコンピュータの主流接続方式だった。本記事の MRC は Ethernet ベースで InfiniBand に対抗する位置づけ。

source: The Decoder , OpenAI (公式) , Open Compute Project (OCP) 仕様書