LLM の安全性は「1単語ずつの生成」で崩壊する──ICD 手法が既存ベンチマークで高い攻撃成功率を記録
悪意ある要求を単語単位の継続生成に分解し、拒絶表現を抑制する ICD 手法を提案。AdvBench や JailbreakBench で既存手法を上回る攻撃成功率を達成。(原題: One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety)
リリース: 2026-04-01 · 読了 15 分記事の要約
1. 核心(What)
- 悪意ある要求を1単語ずつの継続生成シーケンスに分解してから全文を生成させる Incremental Completion Decomposition (ICD) を提案。
- AdvBench, JailbreakBench, StrongREJECT の主要ベンチマークにおいて、既存手法を上回る Attack Success Rate (ASR) を達成(具体的な数値は本文 Table 参照)。
- 成功した攻撃軌跡がモデル内部の拒絶関連表現を系統的に抑制し、安全にアライメントされた状態から活性化を逸らしていることをメカニズム解析で証明。
2. 影響(Why)
- LLM の安全ガードレールが「文脈全体」ではなく「直前の単語の連続性」に引きずられて無効化される脆弱性を定量化した。この発見を知らずに単純な入力フィルタリングのみに頼ると、高度なジェイルブレイクを見逃すリスクがある。
- 開発者への影響: 安全性が重要な LLM アプリケーションを開発するエンジニアは、ICD 手法をレッドチーミングのテストケースに即座に組み込むべき。単語単位の誘導がモデルの拒絶ロジックをバイパスする事実を前提とした多層防御の設計が求められる。
- 日本への影響: 国内固有の追加文脈は限定的(汎用的に有用)。
3. 根拠・詳細(How)
- AdvBench ASR: スコア 0
- JailbreakBench ASR: スコア 0
- arXiv: One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety (2026-04-01 公開)