Andyyyy64、ローカルモデル選定ツール whichllm を公開──ハードウェア構成から最適な LLM をベンチマーク順に提案
VRAM 容量だけでなく実測ベンチマークとモデル世代を統合スコア化し、手元の GPU/CPU で最高性能を発揮する LLM を自動選定・即時実行する CLI ツール。
リリース: 2026-05-15 · 読了 3 分何が起きた
ユーザーの GPU/CPU/RAM を自動検出し、LiveBench や Chatbot Arena 等の外部指標を統合した 0-100 の独自スコアでモデルをランク付けする
VRAM 容量の単純比較ではなく、GQA KV キャッシュや量子化ビット数(Q4_K_M 等)を考慮した推論速度(t/s)をアーキテクチャ別に推定可能
uv をバックエンドに使用した whichllm run コマンドにより、環境構築からモデル取得、対話実行までを 1 コマンドで完結させる
RTX 5090 や Apple M3 Max などのハードウェア構成をシミュレートし、特定のモデルを動かすのに必要なスペックを逆引きする plan 機能を搭載
なぜ重要
「動くかどうか」の判定から「どれが最も賢く速いか」の選定へ、ローカル LLM 活用の意思決定プロセスをベンチマーク主導に転換できる
HuggingFace 上に溢れる派生モデルや量子化バリアントの中から、ハードウェア性能を 100% 引き出す最適解を数秒で特定できる
👁️ 開発者
ローカル LLM をアプリに組み込むエンジニアは、whichllm snippet を利用することで、量子化設定や llama-cpp-python 等のボイラープレート実装を最適化された状態で即座に取得し、実装の試行錯誤を排除できる。
🇯🇵 日本
[国内 AI PC 導入を進める事業会社] のテックリードは、社員に配布する PC スペック(Mac/Windows 混在)ごとに最適な推奨モデルを、主観ではなくベンチマーク数値を根拠に標準化できる。