LLM の「意図しない有害化」は特徴量の幾何学的近接性が原因──幾何学フィルタリングで 34.5% 改善
特徴量の重ね合わせ幾何学に基づき、無害な微調整が有害な振る舞いを誘発するメカニズムを解明。幾何学的なデータ選別により有害化を抑制。(原題: Understanding Emergent Misalignment via Feature Superposition Geometry)