LLM の拒絶挙動を制御する「単一のベクトル」を特定──13 種のオープンモデルで実証
モデル内部の残留ストリームから特定の 1 次元を削除するだけで、安全ガードレールを無効化できるメカニズムを解明した。
リリース: 2024-06-17 · 読了 4 分記事の要約
1. 核心(What)
- Llama-3 や Qwen-1.5、Yi-1.5 など最大 72B パラメータを含む 13 種類の主要なオープンソース LLM を対象に調査を実施した。
- モデル内部の残留ストリーム(residual stream)において、拒絶反応を司る「単一のベクトル方向」が存在することを発見した。
- この特定のベクトル方向を削除すると有害な指示への拒絶が消失し、逆に加算すると無害な指示に対しても拒絶反応を示す。
- この知見に基づき、モデルの他の能力を損なうことなく拒絶機能のみを外科的に無効化するホワイトボックス型の手法を提案した。
2. 影響(Why)
- 「安全性」という複雑に見える挙動が、実は単一のベクトルという極めて脆弱な基盤に依存していることが判明した。
- ファインチューニングによるガードレール設定が、モデル内部のわずかなアクティベーション操作で容易にバイパス可能であることを示している。
- 開発者への影響: LLM をセルフホストして提供する開発者は、既存の安全学習済みモデルであっても、推論時のアクティベーション操作によって容易に「脱獄」されるリスクを考慮し、アプリケーション層での検閲を強化する必要がある。
- 日本への影響: AI セキュリティを専業とする国内スタートアップや、独自の LLM を構築する国内開発チームは、モデルの安全性を評価する際、単なるプロンプト攻撃耐性だけでなく、内部表現の操作に対する堅牢性を評価指標に加えるべきである。
3. 根拠・詳細(How)
- Refusal in Language Models Is Mediated by a Single Direction (2024-06-17 公開)