DenialBench で AI の自己報告バイアスを定量化。否定的なモデルも創作では意識的な内容を好む矛盾を指摘。(原題: Consciousness with the Serial Numbers Filed Off: Measuring Trained Denial in 115 AI Models)
悪意ある要求を単語単位の継続生成に分解し、拒絶表現を抑制する ICD 手法を提案。AdvBench や JailbreakBench で既存手法を上回る攻撃成功率を達成。(原題: One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety)