🛠Tools🔥🔥🔥

Cactus Compute、Gemini 蒸留の 26M 極小ツール呼び出しモデル Needle を公開──推論 1200 tokens/sec を実現

Gemini 3.1 の知識を 2600 万パラメータに凝縮し、スマホやウェアラブル端末でのローカル実行と高速なツール連携を可能にする。

リリース: 2026-05-12 · 読了 2
何が起きた
  • Gemini 3.1 から蒸留された 26M パラメータの Simple Attention Network (SAN) アーキテクチャを採用

  • 推論速度はデコード時に 1200 tokens/sec、プリフィル時に 6000 tokens/sec という圧倒的な高速性を実現

  • FunctionGemma-270m や Qwen-0.6B をシングルショットの関数呼び出し精度で上回るベンチマーク結果を提示

  • Mac や PC 上でローカルにファインチューニング可能な Web UI とデータ合成機能を OSS として提供

なぜ重要
  • クラウド LLM への API 待機時間を排除し、デバイス上のローカル処理だけでツール実行の意思決定を完結できる

  • 26M という極小サイズにより、メモリ制約の厳しいウェアラブルデバイスや IoT 機器への LLM エージェント実装が現実解になる

👁️ 開発者

エッジ AI 開発者は、高価な GPU サーバーを介さずとも、ミリ秒単位のレスポンスが求められる音声アシスタントやスマートグラスの操作ロジックを Needle で構築できる。

🇯🇵 日本

国内の家電・ウェアラブルメーカーや、低遅延な現場作業支援ツールを開発する SIer は、プライバシーを確保しつつオフラインで動作するエージェント機能を既存製品に統合する選択肢が得られる。