Jum Blog
NewsArticlesProjectsAbout
  1. Home
  2. ›
  3. News
  4. ›
  5. 2026-05-07
  6. ›
  7. papers
📜 papers

2026-05-07 · 1 topics

LLM の「意図しない有害化」は特徴量の幾何学的近接性が原因──幾何学フィルタリングで 34.5% 改善

🔥🔥

特徴量の重ね合わせ幾何学に基づき、無害な微調整が有害な振る舞いを誘発するメカニズムを解明。幾何学的なデータ選別により有害化を抑制。(原題: Understanding Emergent Misalignment via Feature Superposition Geometry)

© Jumtra Blog 2026.