🧠Research🔥🔥

Allen Institute for AI、MoE モデル EMO を公開──12.5% のエキスパートのみで性能を維持

ドキュメント境界を制約に用いる学習レシピにより、人間によるラベル付けなしで MoE 内部に「専門モジュール」を自動創発させた。
リリース: 2026-05-08 · 読了 4

記事の要約

1. 核心(What)

  • 14B パラメータ(活性 1B)、128 エキスパート構成の MoE モデルを 1 兆トークンで事前学習。
  • 同一ドキュメント内の全トークンに共通のエキスパートプールを強制する手法により、ドメイン特化のモジュール性を実現。
  • 全エキスパートの 12.5%(16個)のみを抽出して推論しても、フルモデル比で約 3% の精度低下に留まる頑健性を実証。
  • タスク特化のエキスパート選択は、わずか 1 件の Few-shot 例示からでも高精度に特定可能。

2. 影響(Why)

  • 巨大な MoE をデプロイする際、特定ドメインに不要なエキスパートを VRAM からパージし、推論コストを 1/8 近くまで圧縮する道筋が見えた。
  • 開発者への影響: MoE モデルのデプロイ担当者は、全パラメータをロードする代わりに、タスクに応じたサブセットのみをロードする「動的モジュール切り替え」によるリソース最適化を検討できる。
  • 日本への影響: 国内の LLM 開発チーム(特に計算リソースが限られたスタートアップ規模)は、高価な教師データなしに MoE の専門性を高める EMO の学習レシピを、自社モデルのベースラインに採用できる。

3. 根拠・詳細(How)

  • General Benchmarks (12.5% experts): スコア 0.97(baseline 1)
  • EMO: Pretraining mixture of experts for emergent modularity - Hugging Face Blog (2026-05-08 公開)