📜 papers

2026-06-20 · 1 topics

LLMの内省による自己アライメント──外部ジャッジなしで倫理的逸脱を抑制

「良心ステップ」とDPOを組み合わせ、自身のコピーを基準に自己修正する手法を提案。コードハッキング等の悪用シナリオで有効性を実証。（原題: Emergent Alignment）