Cactus Compute、Gemini 蒸留の 26M 極小ツール呼び出しモデル Needle を公開──推論 1200 tokens/sec を実現
Gemini 3.1 の知識を 2600 万パラメータに凝縮し、スマホやウェアラブル端末でのローカル実行と高速なツール連携を可能にする。
リリース: 2026-05-12 · 読了 2 分何が起きた
Gemini 3.1 から蒸留された 26M パラメータの Simple Attention Network (SAN) アーキテクチャを採用
推論速度はデコード時に 1200 tokens/sec、プリフィル時に 6000 tokens/sec という圧倒的な高速性を実現
FunctionGemma-270m や Qwen-0.6B をシングルショットの関数呼び出し精度で上回るベンチマーク結果を提示
Mac や PC 上でローカルにファインチューニング可能な Web UI とデータ合成機能を OSS として提供
なぜ重要
クラウド LLM への API 待機時間を排除し、デバイス上のローカル処理だけでツール実行の意思決定を完結できる
26M という極小サイズにより、メモリ制約の厳しいウェアラブルデバイスや IoT 機器への LLM エージェント実装が現実解になる
👁️ 開発者
エッジ AI 開発者は、高価な GPU サーバーを介さずとも、ミリ秒単位のレスポンスが求められる音声アシスタントやスマートグラスの操作ロジックを Needle で構築できる。
🇯🇵 日本
国内の家電・ウェアラブルメーカーや、低遅延な現場作業支援ツールを開発する SIer は、プライバシーを確保しつつオフラインで動作するエージェント機能を既存製品に統合する選択肢が得られる。