News Articles Projects About

💼Business🔥🔥

Wafer、AMD MI355X での推論最適化手法を公開──NVIDIA B200 比で 2 倍以上のコスト効率を実現

AMD Instinct MI355X と sglang を組み合わせ、GLM-5.2 モデルの推論において NVIDIA GPU と比較可能なスループットを低コストで達成した。

リリース: 2026-07-03 · 読了 5 分

AMD LLM Inference ROCm Hacker News

Performance per dollar is getting faster and cheaper | Wafer (2026-07-03 公開)

記事の要約

1. 核心（What）

Wafer が AMD MI355X GPU を活用し、GLM-5.2 モデルの推論最適化に成功したことを発表。
NVIDIA B200 と比較して、ハードウェアコストを 2.75 倍削減しつつ、性能の 80% を維持。
20k 入力 / 1k 出力、60% キャッシュヒット率のワークロードで 2,626 tok/s/node のスループットを記録。
GLM-5.2 の推論において、単一ストリームで 213 tok/s を達成。

2. 影響（Why）

推論コストの劇的な削減: NVIDIA GPU の供給不足と価格高騰に対し、AMD MI355X を活用することで推論コストを大幅に抑え、商用 RAG や大規模推論の経済性を改善できる。
国内 SaaS 事業者への影響: [Vertical SaaS 規模の国内事業者] は、推論基盤を NVIDIA 依存から脱却し、AMD MI355X を含むマルチベンダー環境へ移行することで、中長期的なインフラコストを 2 倍以上削減できる可能性がある。

3. 根拠・詳細（How）

MXFP4 量子化と sglang の採用: AMD Quark を用いて GLM-5.2 を MXFP4 に量子化し、vLLM ではなく sglang を推論エンジンとして採用することで、量子化モデルの性能を維持しつつ推論を高速化。
ROCm 環境での Speculative Decode 実装: sglang の ROCm イメージにおけるモジュールプレフィックスの不一致を修正し、CUDA 依存のコードに #ifdef USE_ROCM ガードを追加することで、単一ストリームスループットを約 3 倍に向上。
カーネル最適化による Prefill 性能改善: TP4×DP2 構成への切り替えと、MoE カーネルのチューニングにより、FlyDSL ヒューリスティックへのフォールバックを回避し、高負荷時のスループットを 1,944 tok/s/node まで引き上げた。

4. 展望・課題（Next）

エコシステムの成熟: NVIDIA 以外のハードウェアにおける Day-0 サポートの拡充が課題であり、今後エージェントによるカーネル最適化が進むことで開発摩擦が低減される見込み。

← 日別ページに戻るカテゴリ一覧 (business)