モデルアーキテクチャ研究、LLM の拒絶反応を制御する単一の内部ベクトルを特定
13 種類のオープンソースモデルにおいて、残差ストリーム上の単一方向を操作するだけで安全ガードレールを無効化できることを実証した。
リリース: 2024-06-17 · 読了 5 分記事の要約
1. 核心(What)
- 検証対象は最大 72B パラメータ規模を含む 13 種類のオープンソースチャットモデル
- 拒絶反応を司る単一の次元(方向)を特定し、残差ストリームから消去することで拒絶を無効化可能
- 当該ベクトルを強制的に加算することで、無害なプロンプトに対しても拒絶反応を誘発できる
- 敵対的サフィックスが拒絶ベクトルの伝播を抑制するメカニズムを解明
2. 影響(Why)
- 現在の安全チューニングが『特定の次元を強める』という極めて脆弱な実装に依存していることが判明した。
- モデルの内部表現を直接操作するホワイトボックス型の攻撃手法が成立するため、従来のプロンプトベースの防御は無効化される。
- 開発者への影響: LLM アプリケーションを開発するエンジニアは、推論時に特定のベクトル成分をフィルタリングするだけで安全機能をバイパスされるリスクを考慮し、外部の API ゲートウェイによる入力検知を併用する必要がある。
- 日本への影響: 国内の金融や医療向けに LLM を展開する [中堅以上のシステムインテグレーター] は、モデルの重みに対する直接的な改変(ベクトル削除)を想定した、推論環境のセキュリティ要件を再定義すべきである。
3. 根拠・詳細(How)
- Refusal in Language Models Is Mediated by a Single Direction (2024-06-17 公開)