📜Papers🔥🔥

ML-GSAI、拡散モデルベースの言語モデル iLLaDA を公開──LLaDA 比で数学・コード性能が大幅向上

フル双方向アテンションを採用し 12T トークンで学習した 8B モデルが、非自己回帰型ながら Qwen2.5 7B に匹敵する性能を達成した。
リリース: 2026-06-24 · 読了 3

記事の要約

1. 核心(What)

  • 8B パラメータのマスク拡散言語モデル iLLaDA を発表し、12T トークンで事前学習を実施。
  • 事前学習および 25B トークンの指示チューニング(SFT)の全工程で完全双方向アテンションを適用。
  • BBH ベンチマークで 21.6 ポイント、HumanEval で 16.5 ポイントの性能向上を LLaDA と比較して達成。
  • 可変長生成の採用と、多肢選択問題向けの信頼度ベース・スコアリング手法を導入。

2. 影響(Why)

  • 非自己回帰型モデルの現実解: 従来の自己回帰型 LLM と異なり、双方向アテンションをフル活用できるため、特定の推論タスクにおいて既存の autoregressive モデルに迫る精度を確保できる。
  • 国内 SaaS 開発への示唆: LLM 推論の遅延が課題となる国内のリアルタイム対話型 SaaS 業種(中規模)において、非自己回帰型アーキテクチャによる生成効率化の選択肢が具体化した。

3. 根拠・詳細(How)

  • 学習と推論のアーキテクチャ: 8B モデルに対し 12T トークンの事前学習を適用し、推論時は可変長生成を導入することで、固定長生成に依存しない効率的なトークン処理を実現した。
  • ベンチマーク比較: LLaDA との比較において、iLLaDA-Base は ARC-Challenge で 14.9 ポイント、iLLaDA-Instruct は MATH で 14.5 ポイントのスコア優位性を確認済み。

4. 展望・課題(Next)

  • モデル公開の状況: GitHub にてモデルの重みとコードを公開しており、既存の Qwen2.5 7B との性能比較をベースにした検証が可能。