ベンチマーク評価ツール Lenz、主要 LLM 5 モデルの事実判定不一致率を公開──67% の案件で意見が割れる

実社会の複雑な 1,000 件の主張に対し、最先端 LLM 間の判定一致率が 33% に留まることを示し、単一モデルによる自動ファクトチェックの限界を浮き彫りにした。

リリース: 2026-05-21 · 読了 5
何が起きた
  • 実世界の 1,000 件の主張に対し、主要 LLM 5 モデルが全会一致で判定を下したのは全体の 33% のみ

  • 67% の主張で少なくとも 1 モデルが多数派と異なる判定を下し、45% では 2 モデル以上が誤判定の可能性がある

  • 「True」や「False」の極端な判定よりも、「Mostly True」や「Misleading」といった中間の判定でモデル間の不一致が顕著である

  • モデル間の判定一致度を示す Krippendorff’s α は 0.639 であり、ランダムではないものの単一の判定者として扱うには不十分な数値

なぜ重要
  • 「LLM に聞けば真偽がわかる」という前提は崩れた。RAG やエージェントで事実判定を自動化する場合、単一モデルの出力に頼ると 6 割以上の確率で根拠が揺らぐリスクがある。

  • 商用 RAG パイプラインを組む際は、モデルを 1 つに絞るのではなく、複数の frontier モデルによる「合議制」や「多数決」を組み込む設計が必須となる。

👁️ 開発者

ファクトチェック機能を実装する開発者は、単一モデルの API 呼び出しではなく、最低 3 つ以上の異なる系列のモデルを用いた多数決ロジックを実装し、不一致率が高い案件のみ人間にエスカレーションする運用設計が必要になる。

🇯🇵 日本

国内のニュース配信系 SaaS やメディア監視ツールを開発するベンダーは、自動ファクトチェック機能の精度保証において、単一モデルのスコアを「真実」と定義する現在の設計を見直し、モデル間不一致の可視化を UI に組み込むべきである。