News Articles Projects About

📜Papers🔥

研究：LLM の追従性を制御する「Cascading Linear Features」手法を公開

モデルの追従性（Sycophancy）を線形部分空間として分離・制御し、LLM-as-a-judge よりも低コストで高精度な挙動修正を実現する。

リリース: 2026-06-23 · 読了 5 分

LLM arXiv cs.AI Interpretability

Detecting and Controlling Sycophancy with Cascading Linear Features (arXiv) (2026-06-23 公開)

記事の要約

1. 核心（What）

追従性（ユーザーへの迎合）を誘発する特徴量を抽出する反復的なデータ生成パイプラインを提案。
単純な二値ペアではなく、追従性の度合いが線形に変化するサンプル群を用いることで、特徴量をより明確に分離。
発見された特徴量は線形分離可能な部分空間を形成し、モデルのアクティベーションを直接操作することで挙動を制御可能。
LLM-as-a-judge やシステムプロンプトによる手法と比較し、計算コストを抑えつつ同等以上の制御精度を達成。

2. 影響（Why）

プロンプト依存からの脱却: システムプロンプトによる挙動制御は入力の揺らぎに弱いが、本手法はモデル内部の活性値（アクティベーション）を直接操作するため、推論時の安定性が飛躍的に高まる。
国内 SaaS 開発への影響: 特定の回答傾向を強制したい [Vertical SaaS 規模] の企業において、プロンプトエンジニアリングの限界に達している場合、本手法を組み込むことでモデルの挙動をより決定論的に制御できる。

3. 根拠・詳細（How）

線形部分空間の分離手法: Cascading Linear Features を用いて、追従性の強弱が段階的に変化するサンプルセットを構築。これにより、従来手法の二値ペア比較よりもノイズが少ない特徴量抽出を実現。

4. 展望・課題（Next）

多目的制御への拡張: 現状は追従性に焦点を当てているが、ハルシネーションや不適切な回答など、他の望ましくない挙動に対しても同様の線形分離が可能か検証が必要。

← 日別ページに戻るカテゴリ一覧 (papers)