Andyyyy64、ローカルモデル選定ツール whichllm を公開──ハードウェア構成から最適な LLM をベンチマーク順に提案
VRAM 容量だけでなく実測ベンチマークとモデル世代を統合スコア化し、手元の GPU/CPU で最高性能を発揮する LLM を自動選定・即時実行する CLI ツール。
リリース: 2026-05-15 · 読了 3 分記事の要約
1. 核心(What)
- ユーザーの GPU/CPU/RAM を自動検出し、LiveBench や Chatbot Arena 等の外部指標を統合した 0-100 の独自スコアでモデルをランク付けする
- VRAM 容量の単純比較ではなく、GQA KV キャッシュや量子化ビット数(Q4_K_M 等)を考慮した推論速度(t/s)をアーキテクチャ別に推定可能
- uv をバックエンドに使用した whichllm run コマンドにより、環境構築からモデル取得、対話実行までを 1 コマンドで完結させる
- RTX 5090 や Apple M3 Max などのハードウェア構成をシミュレートし、特定のモデルを動かすのに必要なスペックを逆引きする plan 機能を搭載
2. 影響(Why)
- 「動くかどうか」の判定から「どれが最も賢く速いか」の選定へ、ローカル LLM 活用の意思決定プロセスをベンチマーク主導に転換できる
- HuggingFace 上に溢れる派生モデルや量子化バリアントの中から、ハードウェア性能を 100% 引き出す最適解を数秒で特定できる
- 開発者への影響: ローカル LLM をアプリに組み込むエンジニアは、whichllm snippet を利用することで、量子化設定や llama-cpp-python 等のボイラープレート実装を最適化された状態で即座に取得し、実装の試行錯誤を排除できる。
- 日本への影響: [国内 AI PC 導入を進める事業会社] のテックリードは、社員に配布する PC スペック(Mac/Windows 混在)ごとに最適な推奨モデルを、主観ではなくベンチマーク数値を根拠に標準化できる。
3. 根拠・詳細(How)
- Andyyyy64/whichllm GitHub (2026-05-15 公開)