News Articles Projects About

🧠Research🔥🔥

NVIDIA、MoE モデル高速化ライブラリ NeMo AutoModel を公開──Transformers v5 比で最大 3.7 倍の学習スループットを実現

HuggingFace Transformers と API 互換を維持しつつ、Expert Parallelism や DeepEP 統合により MoE モデルの学習効率を大幅に改善した。

リリース: 2026-06-24 · 読了 5 分

LLM MoE NVIDIA Fine-tuning TransformerEngine

HuggingFace Blog: Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel (2026-06-24 公開)

記事の要約

1. 核心（What）

NVIDIA NeMo AutoModel を HuggingFace Transformers の上位レイヤーとして公開。
MoE モデルの学習において、Transformers v5 と比較して 3.4-3.7 倍のスループット向上と 29-32% の GPU メモリ削減を達成。
Qwen3-30B-A3B や Nemotron 3 Nano 30B A3B 等の MoE モデルで最適化済み。
from_pretrained() API のインポート文を差し替えるだけで利用可能な高い互換性を確保。

2. 影響（Why）

MoE 学習のボトルネック解消: トークンのルーティングや GPU 間の通信オーバーヘッドが MoE 学習の壁となっていたが、本ツールにより計算と通信をオーバーラップさせ、大規模モデルの学習を実用的な速度に引き上げる。
国内 SaaS 事業者への影響: 自社で LLM のファインチューニングを行う中規模の Vertical SaaS 事業者は、限られた GPU リソースで大規模な MoE モデルを扱う際、従来の Transformers v5 ではメモリ不足で断念していた学習が可能になる。

3. 根拠・詳細（How）

DeepEP とカーネル最適化: DeepEP を用いて通信と計算を融合し、TransformerEngine カーネルによる fused attention や grouped GEMM を活用することで、v5 までの grouped_mm 方式をさらに高速化した。
メモリ効率の改善: Expert Parallelism (EP=8) によりエキスパートウェイトを 8 台の GPU に分散させ、Qwen3 モデルのピークメモリ使用量を 68.2 GiB から 48.1 GiB へ 29% 削減した。

4. 展望・課題（Next）

エコシステムとの連携: save_pretrained() で出力されるチェックポイントは標準的な HuggingFace 形式であり、vLLM や SGLang との互換性を維持する。

← 日別ページに戻るカテゴリ一覧 (research)