AMD Strix Halo 推論サーバー構築ガイドを公開──RoCE v2 経由の 100GbE 分散推論を実現
2 ノードの AMD Ryzen AI MAX+「Strix Halo」を Intel E810 で直結し、RDMA による低遅延な分散推論環境を構築する手順を解説する。
リリース: 2025-09-03 · 読了 5 分記事の要約
1. 核心(What)
- AMD Ryzen AI MAX+「Strix Halo」を搭載した 2 ノード構成の分散推論セットアップ手順を公開
- Intel E810 100GbE NIC を使用し、RoCE v2 プロトコルでノード間通信のレイテンシを約 5µs まで短縮
- カスタムビルドの librccl.so パッチを同梱した Docker コンテナを提供し、gfx1151 アーキテクチャの RDMA サポートを実現
- Fedora 43 をホスト OS とし、Ray と vLLM によるテンソル並列(TP=2)推論を自動化するツールボックスを配布
2. 影響(Why)
- 推論レイテンシの劇的改善: TCP/IP 経由の通信(約 70-100µs)を RDMA で 5µs に短縮することで、LLM のトークン生成におけるノード間同期のボトルネックを解消し、マルチノードでも単一マシンのような応答性を実現する。
- 国内エッジ AI 開発への影響: オンプレミスで大規模モデルを運用する国内の製造業や研究機関において、高価な Nvidia GPU クラスタを組まずとも、Strix Halo の統合メモリを活用した安価な分散推論基盤を構築する現実的な選択肢となる。
3. 根拠・詳細(How)
- RDMA 通信の最適化: kernel パラメータに iommu=pt や pcie_aspm=off を適用し、PCIe 帯域と RDMA 転送のオーバーヘッドを最小化。Intel E810 NIC の irdma ドライバを用いて RoCE v2 通信を確立している。
- gfx1151 対応の RCCL パッチ: アップストリームの ROCm パッケージで未対応の Strix Halo(gfx1151)向け RDMA 通信を、カスタムビルドした librccl.so をコンテナに注入することで強制的に有効化している。
4. 展望・課題(Next)
- ハードウェア制約の回避: Framework マザーボードの物理 x4 スロットに x16 カードを挿すためのライザーケーブル使用が推奨されており、スロットの物理加工は非推奨。