LLM の制御可能性とドリフトを「幾何学的安定性」で予測──ステアラビリティ予測精度 ρ=0.97
内部表現の距離構造の不変性を測定し、事前評価では制御の可否を、事後監視ではモデルの劣化を検知。(原題: The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability)
リリース: 2026-04-20 · 読了 5 分記事の要約
1. 核心(What)
- 埋め込みモデル 35-69 個において、タスク整合的な幾何学的安定性が線形ステアラビリティを相関係数 ρ=0.89-0.97 で予測。
- 教師なしの安定性指標はステアラビリティ予測には失敗(ρ≈0.10)するが、ドリフト検知では CKA の約 2 倍の感度を発揮。
- Llama 等の事後学習における幾何学的変化を CKA 比で最大 5.23 倍捕捉し、73% のモデルで既存手法より早期の警告を実現。
- ドリフト検知の誤警報率(False Alarm Rate)を Procrustes 解析と比較して 6 分の 1 に抑制。
2. 影響(Why)
- モデルのデプロイ前後に「そのモデルが指示に従いやすいか」と「内部構造が壊れていないか」を同一の幾何学的指標で一貫して評価できる。
- ステアラビリティ予測にはタスク整合性が不可欠であるという発見は、汎用的な評価指標の限界を示しており、評価設計の指針を更新する。
- 開発者への影響: モデルのファインチューニングやアライメントを行う開発者は、性能劣化の予兆を CKA より高感度に、かつ Procrustes より低ノイズで検知するために本手法を導入すべき。
- 日本への影響: 国内固有の追加文脈は限定的(汎用的に有用)。
3. 根拠・詳細(How)
- Linear Steerability Prediction (rho): スコア 0.97(baseline 0.76)
- Drift Detection Sensitivity (vs CKA): スコア 2(baseline 1)
- False Alarm Rate reduction (vs Procrustes): スコア 6(baseline 1)
- arXiv (2026-04-20 公開)