News Articles Projects About

🛠Tools🔥🔥

Liquid AI、オンデバイス推論モデル LFM2.5-8B-A1B を公開──38T 学習と 128K 文脈でツール実行を高速化

アクティブ 1B パラメータの MoE 構成により、MacBook やスマホ上で 128K トークンの長文脈と高度なツール連携を「遅延なし」で実現する。

リリース: 2026-05-28 · 読了 3 分

MoE On-device AI Liquid AI Edge AI LLM

LFM2.5-8B-A1B: An Even Better On-Device Mixture of Experts | Liquid AI (2026-05-28 公開)

記事の要約

1. 核心（What）

38兆トークンの大規模データで学習し、コンテキスト窓を従来の 32K から 128K へ 4 倍に拡張した MoE モデル。
総パラメータ 8B に対しアクティブ 1B の構造を採用し、Apple M5 Max 上で 253 tokens/s、H100 で 18,500 tokens/s の推論速度を達成。
非ラテン言語のトークナイザー効率を改善し、語彙数を 128K に倍増。日本語を含む多言語ドキュメントの処理効率が向上した。
推論時に明示的な Chain of Thought (CoT) を生成する設計により、小型モデル特有のハルシネーションを抑制しつつエージェント性能を強化。

2. 影響（Why）

クラウド API 経由のツール実行で発生していた 1〜2 秒の通信待ち時間が、ローカル完結により 0.1 秒級へ短縮され、エージェントの「即時応答」が現実解になる。
128K 文脈を 6GB 以下のメモリで扱えるため、機密性の高い大量の社内文書をオンプレミス環境で RAG 運用する際のコストパフォーマンスが飛躍的に向上する。
開発者への影響: ローカル LLM アプリを開発するエンジニアは、llama.cpp や MLX の初日サポートにより、既存の GGUF ワークフローをそのまま LFM2.5 に差し替えてエージェントの応答速度を改善できる。
日本への影響: 日本語を含む非ラテン言語のトークン効率が向上したため、国内の PC 向けソフトウェアベンダーは、クラウドコストを抑えつつ日本語ドキュメントの高度な要約・検索機能を標準搭載する設計に舵を切れる。

3. 根拠・詳細（How）

LFM2.5-8B-A1B: An Even Better On-Device Mixture of Experts | Liquid AI (2026-05-28 公開)

📘 Docs 🎮 Demo

← 日別ページに戻るカテゴリ一覧 (tools)