🛠Tools🔥🔥🔥

Andyyyy64、ローカルモデル選定ツール whichllm を公開──ハードウェア構成から最適な LLM をベンチマーク順に提案

VRAM 容量だけでなく実測ベンチマークとモデル世代を統合スコア化し、手元の GPU/CPU で最高性能を発揮する LLM を自動選定・即時実行する CLI ツール。

リリース: 2026-05-15 · 読了 3
何が起きた
  • ユーザーの GPU/CPU/RAM を自動検出し、LiveBench や Chatbot Arena 等の外部指標を統合した 0-100 の独自スコアでモデルをランク付けする

  • VRAM 容量の単純比較ではなく、GQA KV キャッシュや量子化ビット数(Q4_K_M 等)を考慮した推論速度(t/s)をアーキテクチャ別に推定可能

  • uv をバックエンドに使用した whichllm run コマンドにより、環境構築からモデル取得、対話実行までを 1 コマンドで完結させる

  • RTX 5090 や Apple M3 Max などのハードウェア構成をシミュレートし、特定のモデルを動かすのに必要なスペックを逆引きする plan 機能を搭載

なぜ重要
  • 「動くかどうか」の判定から「どれが最も賢く速いか」の選定へ、ローカル LLM 活用の意思決定プロセスをベンチマーク主導に転換できる

  • HuggingFace 上に溢れる派生モデルや量子化バリアントの中から、ハードウェア性能を 100% 引き出す最適解を数秒で特定できる

👁️ 開発者

ローカル LLM をアプリに組み込むエンジニアは、whichllm snippet を利用することで、量子化設定や llama-cpp-python 等のボイラープレート実装を最適化された状態で即座に取得し、実装の試行錯誤を排除できる。

🇯🇵 日本

[国内 AI PC 導入を進める事業会社] のテックリードは、社員に配布する PC スペック(Mac/Windows 混在)ごとに最適な推奨モデルを、主観ではなくベンチマーク数値を根拠に標準化できる。