LLMは内容より文体を優先し役割を誤認する──プロンプトインジェクションの脆弱性を解明
システムプロンプトの形式を模倣する攻撃で成功率が 61% に達し、文体変更で 10% まで低減。LLMの役割認識の不完全性を指摘。(原題: Prompt Injection as Role Confusion)
リリース: 2026-06-22 · 読了 5 分何が起きた
システムプロンプトの形式を模倣した攻撃の成功率は 61% に達する
攻撃テキストの文体を変更する「Destyling」により成功率を 10% まで低減可能
モデルは内容の真偽よりもテキストの文体を優先して役割を判断する傾向がある
検証モデルには gpt-oss-20b を使用
なぜ重要
「タグで囲めばシステムプロンプトとユーザー入力を分離できる」という既存の防御策が、モデルの文体追従性によって無効化されることを突き止めた
防御側がいたちごっこを繰り返す根本原因が、LLMの「役割認識の欠如」にあることを理論的に示した
👁️ 開発者
LLMを用いたアプリケーション開発者は、システムプロンプトの形式を模倣したインジェクション攻撃に対し、タグによる分離だけでは不十分であることを前提に、入力の文体フィルタリングや検証レイヤーを別途設ける必要がある。
🇯🇵 日本
国内固有の追加文脈は限定的(汎用的に有用)。