視覚言語モデルの信頼性はアテンションでは測れない──隠れ状態の幾何構造が正誤を AUROC 0.95 で予測
3つのVLMを解析し、アテンションの鋭さと信頼性の相関がほぼゼロであることを解明。隠れ状態の線形プローブによる高精度な正誤予測を提案。(原題: Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits)
リリース: 2026-05-05 · 読了 4 分アテンション構造と正誤の相関(点双列相関係数)は 0.001 (95% CI [-0.034, 0.036]) であり、予測因子として機能していない。
計算の後半層における隠れ状態の線形プローブは、POPE ベンチマークにおいて AUROC 0.95 以上の精度でモデルの正誤を識別可能。
アーキテクチャによる堅牢性の差を特定。Late-fusion 型の LLaVA は特定のニューロンに依存するが、Early-fusion 型は隠れ次元の約 50% を破壊しても精度低下が 1 pt 以下に留まる。
自己整合性(Self-consistency at K=10)は強力な行動指標(R_pb=0.43)だが、線形プローブに比べ 10 倍の推論コストを要する。
「アテンションが注目領域に集中しているから回答が正しい」という直感的な判断は、VLM においては科学的根拠がないことが定量化された。
モデルの信頼性をモニタリングする際、アテンションマップの可視化ではなく、後半層の隠れ状態を監視する方が遥かに正確で低コストな実装が可能になる。
アーキテクチャ設計(Early-fusion vs Late-fusion)が、モデル内部の信頼性情報の分布と堅牢性に決定的な違いをもたらすことが示された。
VLM の出力信頼性をスコアリングする機能を実装する開発者は、アテンションマップの可視化を「根拠」として提示するのをやめ、後半層の隠れ状態を用いた線形プローブの実装を検討すべき。これにより推論コストを抑えつつ高精度なガードレールを構築できる。
国内固有の追加文脈は限定的(汎用的に有用)。
| Metric | Score | Δ |
|---|---|---|
| POPE (Hidden-state linear probe AUROC) | 0.95 | |
| Self-consistency (K=10) R_pb | 0.43 |