LLM 性能評価の非線形性を実証──「A > B かつ B > C ならば A > C」の推移律は成立せず
15 モデル間の 2,500 以上の直接対決を解析し、LLM 評価における推移律の崩壊を実証。単一スコアによる順位付けの限界を指摘。(原題: LLM rankings are not a ladder: experimental results from a transitive benchmark graph)
リリース: 2025-01-22 · 読了 10 分15 種類の主要 LLM(GPT-4o, Claude 3.5 Sonnet 等)を対象に、数学・推論・コード生成などのタスクで 2,500 以上の直接比較(Head-to-head)を実施した。
「モデル A が B に勝ち、B が C に勝てば、A は C に勝つ」という推移律(Transitivity)が成立しないケースが統計的に有意に存在することを証明した。
LMSYS Chatbot Arena 等で採用される Elo レーティングのような、全モデルを単一の「はしご(Ladder)」に並べる評価手法の妥当性に疑問を呈した。
特定のタスクにおいて「A > B > C > A」というジャンケンのような循環構造(Cycles)が観測され、モデル間の優劣が多次元的であることを明らかにした。
「最強モデル」という単一の指標を信じてモデル選定を行うリスクを定量化。特定のタスクで A が B に勝っていても、自分の業務タスクで A が最適とは限らない構造的理由を示している。
リーダーボード上位へのリプレースが必ずしも精度向上を保証しないことを理論的に裏付けており、評価指標の設計ミスによる投資判断の誤りを防ぐ知見となる。
汎用ランキングをモデル選定の唯一の根拠にするのを止めるべき。本論文は、特定のドメインにおいて下位モデルが上位モデルを凌駕する構造が普遍的に存在することを示しており、自社データを用いた A/B テスト(Side-by-side 評価)の重要性を裏付けている。
国内固有の追加文脈は限定的(汎用的に有用)。
| Metric | Score | Δ |
|---|---|---|
| Total Pairwise Comparisons | 2500 |