🧠Research🔥🔥

Allen Institute for AI、MoE モデル EMO を公開──12.5% のエキスパートのみで性能を維持

ドキュメント境界を制約に用いる学習レシピにより、人間によるラベル付けなしで MoE 内部に「専門モジュール」を自動創発させた。

リリース: 2026-05-08 · 読了 4
何が起きた
  • 14B パラメータ(活性 1B)、128 エキスパート構成の MoE モデルを 1 兆トークンで事前学習。

  • 同一ドキュメント内の全トークンに共通のエキスパートプールを強制する手法により、ドメイン特化のモジュール性を実現。

  • 全エキスパートの 12.5%(16個)のみを抽出して推論しても、フルモデル比で約 3% の精度低下に留まる頑健性を実証。

  • タスク特化のエキスパート選択は、わずか 1 件の Few-shot 例示からでも高精度に特定可能。

なぜ重要
  • 巨大な MoE をデプロイする際、特定ドメインに不要なエキスパートを VRAM からパージし、推論コストを 1/8 近くまで圧縮する道筋が見えた。

👁️ 開発者

MoE モデルのデプロイ担当者は、全パラメータをロードする代わりに、タスクに応じたサブセットのみをロードする「動的モジュール切り替え」によるリソース最適化を検討できる。

🇯🇵 日本

国内の LLM 開発チーム(特に計算リソースが限られたスタートアップ規模)は、高価な教師データなしに MoE の専門性を高める EMO の学習レシピを、自社モデルのベースラインに採用できる。