Andyyyy64、ローカルモデル選定ツール whichllm を公開──ハードウェア構成から最適な LLM をベンチマーク順に提案

🛠Tools🔥🔥🔥

VRAM 容量だけでなく実測ベンチマークとモデル世代を統合スコア化し、手元の GPU/CPU で最高性能を発揮する LLM を自動選定・即時実行する CLI ツール。

リリース: 2026-05-15 · 読了 3 分

何が起きた

ユーザーの GPU/CPU/RAM を自動検出し、LiveBench や Chatbot Arena 等の外部指標を統合した 0-100 の独自スコアでモデルをランク付けする
VRAM 容量の単純比較ではなく、GQA KV キャッシュや量子化ビット数（Q4_K_M 等）を考慮した推論速度（t/s）をアーキテクチャ別に推定可能
uv をバックエンドに使用した whichllm run コマンドにより、環境構築からモデル取得、対話実行までを 1 コマンドで完結させる
RTX 5090 や Apple M3 Max などのハードウェア構成をシミュレートし、特定のモデルを動かすのに必要なスペックを逆引きする plan 機能を搭載

なぜ重要

👁️ 開発者

ローカル LLM をアプリに組み込むエンジニアは、whichllm snippet を利用することで、量子化設定や llama-cpp-python 等のボイラープレート実装を最適化された状態で即座に取得し、実装の試行錯誤を排除できる。

🇯🇵 日本

[国内 AI PC 導入を進める事業会社] のテックリードは、社員に配布する PC スペック（Mac/Windows 混在）ごとに最適な推奨モデルを、主観ではなくベンチマーク数値を根拠に標準化できる。