News Articles Projects About

📜Papers🔥🔥

ML-GSAI、拡散モデルベースの言語モデル iLLaDA を公開──LLaDA 比で数学・コード性能が大幅向上

フル双方向アテンションを採用し 12T トークンで学習した 8B モデルが、非自己回帰型ながら Qwen2.5 7B に匹敵する性能を達成した。

リリース: 2026-06-24 · 読了 3 分

LLM Diffusion arXiv cs.CL

Improved Large Language Diffusion Models (arXiv) (2026-06-24 公開)

記事の要約

1. 核心（What）

8B パラメータのマスク拡散言語モデル iLLaDA を発表し、12T トークンで事前学習を実施。
事前学習および 25B トークンの指示チューニング（SFT）の全工程で完全双方向アテンションを適用。
BBH ベンチマークで 21.6 ポイント、HumanEval で 16.5 ポイントの性能向上を LLaDA と比較して達成。
可変長生成の採用と、多肢選択問題向けの信頼度ベース・スコアリング手法を導入。

2. 影響（Why）

非自己回帰型モデルの現実解: 従来の自己回帰型 LLM と異なり、双方向アテンションをフル活用できるため、特定の推論タスクにおいて既存の autoregressive モデルに迫る精度を確保できる。
国内 SaaS 開発への示唆: LLM 推論の遅延が課題となる国内のリアルタイム対話型 SaaS 業種（中規模）において、非自己回帰型アーキテクチャによる生成効率化の選択肢が具体化した。

3. 根拠・詳細（How）

学習と推論のアーキテクチャ: 8B モデルに対し 12T トークンの事前学習を適用し、推論時は可変長生成を導入することで、固定長生成に依存しない効率的なトークン処理を実現した。
ベンチマーク比較: LLaDA との比較において、iLLaDA-Base は ARC-Challenge で 14.9 ポイント、iLLaDA-Instruct は MATH で 14.5 ポイントのスコア優位性を確認済み。

4. 展望・課題（Next）

モデル公開の状況: GitHub にてモデルの重みとコードを公開しており、既存の Qwen2.5 7B との性能比較をベースにした検証が可能。

← 日別ページに戻るカテゴリ一覧 (papers)