🛠Tools🔥🔥🔥

Cactus Compute、Gemini 蒸留の 26M 極小ツール呼び出しモデル Needle を公開──推論 1200 tokens/sec を実現

Gemini 3.1 の知識を 2600 万パラメータに凝縮し、スマホやウェアラブル端末でのローカル実行と高速なツール連携を可能にする。
リリース: 2026-05-12 · 読了 2

記事の要約

1. 核心(What)

  • Gemini 3.1 から蒸留された 26M パラメータの Simple Attention Network (SAN) アーキテクチャを採用
  • 推論速度はデコード時に 1200 tokens/sec、プリフィル時に 6000 tokens/sec という圧倒的な高速性を実現
  • FunctionGemma-270m や Qwen-0.6B をシングルショットの関数呼び出し精度で上回るベンチマーク結果を提示
  • Mac や PC 上でローカルにファインチューニング可能な Web UI とデータ合成機能を OSS として提供

2. 影響(Why)

  • クラウド LLM への API 待機時間を排除し、デバイス上のローカル処理だけでツール実行の意思決定を完結できる
  • 26M という極小サイズにより、メモリ制約の厳しいウェアラブルデバイスや IoT 機器への LLM エージェント実装が現実解になる
  • 開発者への影響: エッジ AI 開発者は、高価な GPU サーバーを介さずとも、ミリ秒単位のレスポンスが求められる音声アシスタントやスマートグラスの操作ロジックを Needle で構築できる。
  • 日本への影響: 国内の家電・ウェアラブルメーカーや、低遅延な現場作業支援ツールを開発する SIer は、プライバシーを確保しつつオフラインで動作するエージェント機能を既存製品に統合する選択肢が得られる。

3. 根拠・詳細(How)

  • cactus-compute/needle GitHub (2026-05-12 公開)