BaseRT、Apple Silicon 向け推論ランタイムを公開──llama.cpp 比で最大 1.56 倍の高速化を実現
Apple Silicon の統合メモリ構造に最適化したネイティブ Metal 実装により、M3/M4 Pro 環境での LLM 推論スループットを大幅に引き上げた。
リリース: 2026-07-01 · 読了 3 分記事の要約
1. 核心(What)
- Apple Silicon 向けにネイティブ Metal で構築された推論ランタイム「BaseRT」を発表。
- llama.cpp と比較して最大 1.56 倍、MLX と比較して最大 1.35 倍のデコードスループットを達成。
- Q2 から FP16 までの 8 種類の量子化フォーマットに対応し、サブ 1B から 30B パラメータモデルまでをサポート。
- Qwen3、Llama 3.2、Gemma 4 ファミリーを用い、M3 および M4 Pro チップ環境でベンチマークを検証。
2. 影響(Why)
- エッジ推論のボトルネック解消: 既存フレームワークの抽象化レイヤーによるオーバーヘッドを排除することで、プライバシーやレイテンシ制約が厳しい環境でのオンデバイス推論を現実的な選択肢にする。
- 国内モバイル・エッジ開発への影響: [国内のモバイルアプリ開発・エッジ AI 開発事業] において、これまでクラウド GPU に頼っていた推論処理を M シリーズ搭載機へ移行する際の性能上限が底上げされる。
3. 根拠・詳細(How)
- Metal ネイティブの最適化手法: Apple Silicon の統合メモリトポロジーに最適化したカスタムディスパッチロジックとチップ特化のカーネルフュージョンを実装し、従来フレームワークが抱えていたメモリ帯域のロスを削減。
4. 展望・課題(Next)
- 実装の公開: BaseRT は GitHub にて公開されており、既存の推論パイプラインへの統合が可能。