Jum Blog
NewsArticlesProjectsAbout
  1. Home
  2. ›
  3. News
  4. ›
  5. 2026-06-20
  6. ›
  7. papers
📜 papers

2026-06-20 · 1 topics

LLMの内省による自己アライメント──外部ジャッジなしで倫理的逸脱を抑制

🔥🔥

「良心ステップ」とDPOを組み合わせ、自身のコピーを基準に自己修正する手法を提案。コードハッキング等の悪用シナリオで有効性を実証。(原題: Emergent Alignment)

© Jumtra Blog 2026.