OpenAI、大規模AI学習向けネットワークプロトコル「MRC」を公開──EthernetでInfiniBand級の性能を実現
10万基規模のGPUクラスタにおけるパケットロスと輻輳をトランスポート層で制御し、学習効率のボトルネックを解消した。
リリース: 2024-11-20 · 読了 5 分記事の要約
1. 核心(What)
- MRC (Multipath Reliable Connection) は、Ethernet上で動作するRDMA対応の独自トランスポート層プロトコルである。
- 従来のRoCE v2が抱えていた輻輳時のパケット破棄問題を、受信側が送信レートを決定する「Receiver-driven flow control」によりソフトウェアで解決した。
- 数万基のGPUを接続する「Arakis」クラスタにおいて、InfiniBandと同等の実効帯域幅と、障害発生からのミリ秒単位の高速復旧を実証した。
2. 影響(Why)
- 高価でベンダーロックインの強いInfiniBandに依存せず、汎用的なEthernetスイッチを用いて世界最大級の学習インフラを構築できることを証明した。
- 開発者への影響: 大規模分散学習を設計するインフラエンジニアは、NICやスイッチのハードウェア特性に頼るだけでなく、トランスポート層の独自実装による最適化が学習スループットを最大化する現実的な選択肢となった。
- 日本への影響: 数千基規模のGPUクラスタを構築・運用する国内のクラウド事業者や研究機関は、ネットワーク機器の調達コストを抑えつつ性能を維持するため、MRCのようなEthernetベースの最適化技術の採用を検討する価値がある。
3. 根拠・詳細(How)
- OpenAI 公式ブログ (2024-11-20 公開)