OpenAI が AMD、Broadcom、Intel、Microsoft、NVIDIA と共同開発した新しいネットワーキングプロトコル「MRC(Multipath Reliable Connection)」を 5 月 6 日に Open Compute Project を通じて発表しました。このプロトコルは、AI スーパーコンピュータのネットワーク層における根本的な課題を解決する革新的な設計です。

MRC プロトコルの革新性

従来の大規模 AI データセンターでは、GPU クラスタ間の通信をサポートするために 3~4 層の Ethernet スイッチが必要でした。このアーキテクチャは、スイッチの層数が増えるにつれて、データの遅延が増加し、ネットワークの混雑が深刻化するという根本的な問題を抱えていました。

MRC は「パケットを数百のパスに同時に分散させ、ネットワークコアの混雑を軽減」する設計を採用しています。この多重パス方式により、従来は秒単位かそれ以上かかった障害検出と迂回が、マイクロ秒単位で実現可能になります。

スケーラビリティの劇的な向上

MRC の最大の利点は、スイッチレイヤーを削減しながら GPU 接続数を大幅に増加させられることです。

従来のアーキテクチャ: 3~4 層のスイッチ → 100,000+ GPU の接続は実質的に困難 MRC アーキテクチャ: わずか 2 層の Ethernet スイッチ → 100,000 以上の GPU を接続可能

この単純化は単なる配線の簡潔さだけではなく、電力消費、部品数、全体的なシステム複雑性の大幅な削減をもたらします。

業界パートナーシップの意義

AMD、Broadcom、Intel、Microsoft、NVIDIA という 5 つの業界リーダーが OpenAI と共同開発した背景には、AI インフラの進化が単一企業では実現不可能な領域に到達しているという認識があります。

  • NVIDIA: GPU メーカーとしてのハードウェア設計の最適化
  • Broadcom: ネットワークスイッチ設計の専門性
  • Intel: プロセッサ・アーキテクチャの知見
  • AMD: GPU・CPU 技術の提供
  • Microsoft: 大規模クラウド基盤の運用経験

各社の専門領域が交差する地点で、この技術が生まれたことは、AI インフラの進化が標準化と協調なしには進まないことを示しています。

現在の実装状況

MRC は既に OpenAI の最大規模 NVIDIA GB200 スーパーコンピュータ全体に配備されています。これは OpenAI の Stargate プロジェクトを支える中核的なネットワーキング基盤として機能しており、訓練実行の継続性向上、消費電力の削減、全体コストの低下を実現しています。

今後の業界への影響

Open Compute Project での発表は、MRC が「オープンスタンダード化」への道を歩んでいることを意味します。これにより、他の大規模 AI インフラプロジェクト(Google、Meta、Amazon など)も同じプロトコルの採用を検討する可能性があります。

AI インフラの複雑性が増す中で、こうした業界レベルの標準化は、コスト削減と技術的な相互運用性の両面で極めて重要です。


関連動向: Anthropic も同じく GPU 調達を加速させており、SpaceX の Colossus-1 データセンターで 220,000 GPU の運用を開始予定。業界全体でスーパーコンピュータの構築競争が急速に進む中で、MRC のような効率化技術の重要性はさらに高まるでしょう。