🛠Tools🔥🔥

macOS 用ローカルコーディングエージェント構築手法を公開──Gemma 4 と MTP 活用で推論を 24% 高速化

Apple Silicon 上で llama.cpp と Gemma 4 の MTP を組み合わせ、オフライン環境でも 70 t/s 超の応答速度と画像解析を両立する実用的な開発環境の構成案。

リリース: 2026-06-12 · 読了 5
何が起きた
  • Apple M1 Max (64GB) 環境にて llama.cpp を使用し、Gemma 4 26B-A4B モデルで 72.2 tokens/second の推論速度を達成した。

  • MTP (Multi-Token Prediction) による投機的デコーディングを有効化することで、ベースラインの 58 t/s から生成速度が約 24% 向上した。

  • llama.cpp の OpenAI 互換 API サーバーを介して、ターミナル用エージェント Pi と連携し、スクリーンショットを用いたマルチモーダルな画像解析にも対応する。

  • 検証の結果、この特定の構成(Gemma 4 26B + MTP)においては、Mac 最適化を謳う MLX よりも llama.cpp の方が高速に動作した。

なぜ重要
  • ネット環境に依存せず、かつ商用 API 級の応答速度 (70 t/s+) でコーディング支援を受けられるため、機密情報を扱う開発現場での「ローカル完結型エージェント」の現実味が大幅に増した。

👁️ 開発者

Apple Silicon 搭載 Mac を持つ開発者は、MLX よりも llama.cpp + MTP の組み合わせが高速であるという検証結果を元に、低レイテンシな自前開発支援ツールを即座に構築できる。

🇯🇵 日本

セキュリティ要件が極めて厳しい [国内 SIer / 金融系開発部門] などの組織において、外部 API を一切使わずに 26B クラスの高性能モデルを実用速度で運用する標準構成案として採用価値が高い。