Liquid AI、オンデバイス推論モデル LFM2.5-8B-A1B を公開──38T 学習と 128K 文脈でツール実行を高速化
アクティブ 1B パラメータの MoE 構成により、MacBook やスマホ上で 128K トークンの長文脈と高度なツール連携を「遅延なし」で実現する。
リリース: 2026-05-28 · 読了 3 分何が起きた
38兆トークンの大規模データで学習し、コンテキスト窓を従来の 32K から 128K へ 4 倍に拡張した MoE モデル。
総パラメータ 8B に対しアクティブ 1B の構造を採用し、Apple M5 Max 上で 253 tokens/s、H100 で 18,500 tokens/s の推論速度を達成。
非ラテン言語のトークナイザー効率を改善し、語彙数を 128K に倍増。日本語を含む多言語ドキュメントの処理効率が向上した。
推論時に明示的な Chain of Thought (CoT) を生成する設計により、小型モデル特有のハルシネーションを抑制しつつエージェント性能を強化。
なぜ重要
クラウド API 経由のツール実行で発生していた 1〜2 秒の通信待ち時間が、ローカル完結により 0.1 秒級へ短縮され、エージェントの「即時応答」が現実解になる。
128K 文脈を 6GB 以下のメモリで扱えるため、機密性の高い大量の社内文書をオンプレミス環境で RAG 運用する際のコストパフォーマンスが飛躍的に向上する。
👁️ 開発者
ローカル LLM アプリを開発するエンジニアは、llama.cpp や MLX の初日サポートにより、既存の GGUF ワークフローをそのまま LFM2.5 に差し替えてエージェントの応答速度を改善できる。
🇯🇵 日本
日本語を含む非ラテン言語のトークン効率が向上したため、国内の PC 向けソフトウェアベンダーは、クラウドコストを抑えつつ日本語ドキュメントの高度な要約・検索機能を標準搭載する設計に舵を切れる。