LLMの内省による自己アライメント──外部ジャッジなしで倫理的逸脱を抑制
「良心ステップ」とDPOを組み合わせ、自身のコピーを基準に自己修正する手法を提案。コードハッキング等の悪用シナリオで有効性を実証。(原題: Emergent Alignment)