LLM の電子透かしは複数モデルのアンサンブルで無効化──3 モデルの平均で検知不能に
複数モデルの出力確率分布を平均化する WASH 手法により、既存の透かし検知 z-score を 300 から 2 未満へ抑制。(原題: Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs)