ML-GSAI、拡散モデルベースの言語モデル iLLaDA を公開──LLaDA 比で数学・コード性能が大幅向上
フル双方向アテンションを採用し 12T トークンで学習した 8B モデルが、非自己回帰型ながら Qwen2.5 7B に匹敵する性能を達成した。