📜Papers🔥🔥

LLM の電子透かしは複数モデルのアンサンブルで無効化──3 モデルの平均で検知不能に

複数モデルの出力確率分布を平均化する WASH 手法により、既存の透かし検知 z-score を 300 から 2 未満へ抑制。(原題: Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs)

リリース: 2026-05-28 · 読了 4
何が起きた
  • 3〜5つのモデルの出力確率分布を平均化するだけで、電子透かしの検知指標である z-score が最大 300 から検知閾値(4)を下回る 2 未満に低下する。

  • 提案手法 WASH(Watermark Attenuation via Statistical Hybridisation)は、異なるモデル間での語彙(vocabulary)の不一致やトークナイズの差異を解決し、統計的なハイブリッド出力を生成する。

  • 6つの電子透かしスキームにおいて、偽陽性率(FPR)5% 時の真陽性率(TPR)が 50% 以下にまで低下し、検知を実質的に無効化できることを実証した。

  • アンサンブル効果により、生成テキストの品質が 27.5% 向上し、既存の最良のベースライン手法と比較して 6 倍高速に動作する。

なぜ重要
  • AI 生成コンテンツの権利保護や偽情報対策の要である「電子透かし」が、複数の API を並列利用するだけで容易に突破される脆弱性が判明した。モデルプロバイダー間での高度な協調がない限り、現在の透かし技術に依存した検知・帰属判定は信頼できない。

👁️ 開発者

透かしによる AI 生成物検知をプロダクトに組み込んでいる開発者は、このアンサンブル攻撃(WASH)に対する耐性がないことを前提に設計を見直すべき。単一モデルの出力に依存する検知ロジックは、攻撃者が 3 つ程度の軽量モデルを組み合わせるだけで無効化される。

🇯🇵 日本

国内固有の追加文脈は限定的(汎用的に有用)。


著者
ArXiv Authors
📊 Benchmark
MetricScoreΔ
Detection z-score (3-model ensemble)2-298.0
Quality improvement (%)27.5+27.5