Cactus Compute、Gemini 蒸留の 26M 極小ツール呼び出しモデル Needle を公開──推論 1200 tokens/sec を実現
Gemini 3.1 の知識を 2600 万パラメータに凝縮し、スマホやウェアラブル端末でのローカル実行と高速なツール連携を可能にする。
リリース: 2026-05-12 · 読了 2 分記事の要約
1. 核心(What)
- Gemini 3.1 から蒸留された 26M パラメータの Simple Attention Network (SAN) アーキテクチャを採用
- 推論速度はデコード時に 1200 tokens/sec、プリフィル時に 6000 tokens/sec という圧倒的な高速性を実現
- FunctionGemma-270m や Qwen-0.6B をシングルショットの関数呼び出し精度で上回るベンチマーク結果を提示
- Mac や PC 上でローカルにファインチューニング可能な Web UI とデータ合成機能を OSS として提供
2. 影響(Why)
- クラウド LLM への API 待機時間を排除し、デバイス上のローカル処理だけでツール実行の意思決定を完結できる
- 26M という極小サイズにより、メモリ制約の厳しいウェアラブルデバイスや IoT 機器への LLM エージェント実装が現実解になる
- 開発者への影響: エッジ AI 開発者は、高価な GPU サーバーを介さずとも、ミリ秒単位のレスポンスが求められる音声アシスタントやスマートグラスの操作ロジックを Needle で構築できる。
- 日本への影響: 国内の家電・ウェアラブルメーカーや、低遅延な現場作業支援ツールを開発する SIer は、プライバシーを確保しつつオフラインで動作するエージェント機能を既存製品に統合する選択肢が得られる。
3. 根拠・詳細(How)
- cactus-compute/needle GitHub (2026-05-12 公開)