🛠Tools🔥🔥🔥

Cactus Compute、Gemini 蒸留の 26M 極小ツール呼び出しモデル Needle を公開──推論 1200 tokens/sec を実現

リリース: 2026-05-12 · 読了 2 分

記事の要約

1. 核心（What）

クラウド LLM への API 待機時間を排除し、デバイス上のローカル処理だけでツール実行の意思決定を完結できる
26M という極小サイズにより、メモリ制約の厳しいウェアラブルデバイスや IoT 機器への LLM エージェント実装が現実解になる
開発者への影響: エッジ AI 開発者は、高価な GPU サーバーを介さずとも、ミリ秒単位のレスポンスが求められる音声アシスタントやスマートグラスの操作ロジックを Needle で構築できる。
日本への影響: 国内の家電・ウェアラブルメーカーや、低遅延な現場作業支援ツールを開発する SIer は、プライバシーを確保しつつオフラインで動作するエージェント機能を既存製品に統合する選択肢が得られる。