OpenAI、大規模AI学習向けネットワークプロトコル「MRC」を公開──EthernetでInfiniBand級の性能を実現

🧠Research🔥🔥🔥

10万基規模のGPUクラスタにおけるパケットロスと輻輳をトランスポート層で制御し、学習効率のボトルネックを解消した。

リリース: 2024-11-20 · 読了 5 分

何が起きた

MRC (Multipath Reliable Connection) は、Ethernet上で動作するRDMA対応の独自トランスポート層プロトコルである。
従来のRoCE v2が抱えていた輻輳時のパケット破棄問題を、受信側が送信レートを決定する「Receiver-driven flow control」によりソフトウェアで解決した。
数万基のGPUを接続する「Arakis」クラスタにおいて、InfiniBandと同等の実効帯域幅と、障害発生からのミリ秒単位の高速復旧を実証した。

なぜ重要

👁️ 開発者

大規模分散学習を設計するインフラエンジニアは、NICやスイッチのハードウェア特性に頼るだけでなく、トランスポート層の独自実装による最適化が学習スループットを最大化する現実的な選択肢となった。

🇯🇵 日本

数千基規模のGPUクラスタを構築・運用する国内のクラウド事業者や研究機関は、ネットワーク機器の調達コストを抑えつつ性能を維持するため、MRCのようなEthernetベースの最適化技術の採用を検討する価値がある。