inclusionAI、エージェント特化モデル Ling-2.6-flash を公開──7.4B Active パラメータで 340 tokens/s の高速推論を実現
ハイブリッド線形アテンションと MoE を組み合わせ、エージェント実行時のトークン消費とコストを抑えつつ SOTA 級の推論性能を両立した。
リリース: 2026-04-30 · 読了 3 分何が起きた
総パラメータ数 104B、アクティブパラメータ数 7.4B の MoE 構成を採用した instruct モデルである
1:7 MLA と Lightning Linear を統合したハイブリッド線形アテンションにより、4× H20 環境で最大 340 tokens/s のスループットを達成した
BFCL-V4 や SWE-bench Verified などのエージェント評価指標で、より大規模なアクティブパラメータを持つモデルと同等の性能を記録した
262,144 トークンの長文脈に対応し、SGLang や vLLM による FP8/BF16 推論を公式にサポートしている
なぜ重要
エージェントワークフローはトークン消費が激しいため、性能を維持したまま出力を簡潔にする「トークン効率」の最適化は、運用コストを直接 1/2 以下に下げる鍵となる
推論速度 340 tokens/s は、人間が読む速度を遥かに超え、自律型エージェントの多段階思考ステップにおける待ち時間をほぼゼロにする
👁️ 開発者
Claude Code などのエージェントフレームワークを利用する開発者は、高価な商用 API からこの高速な OSS モデルへ移行することで、推論コストを抑えつつ開発サイクルを劇的に高速化できる
🇯🇵 日本
国内の AI エージェント開発スタートアップや受託開発企業は、H20 などのミドルレンジ GPU リソースで、商用 SOTA 級の自社専用エージェントを低遅延でホストする選択肢が現実的になる