RLVRによる推論学習は思考過程と最終回答の因果関係を保証しない──補助報酬による改善手法を提案
RLVR(検証可能な報酬を用いた強化学習)が思考過程の質に与える影響をCIRとSRで定量化。補助報酬の追加で回答精度を維持しつつ推論の因果性を向上。(原題: Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning)
リリース: 2026-04-23 · 読了 5 分記事の要約
1. 核心(What)
- RLVR(検証可能な報酬を用いた強化学習)はタスク精度を向上させるが、思考過程の因果的寄与(CIR)や十分性(SR)を確実に改善しないことを確認
- RLVR前の少量のSFT(教師あり微調整)がCIRおよびSRの低下を改善する有効な手段となる
- Outcome-based rewardにCIR/SRを補助報酬として加える手法により、精度を維持したまま推論の因果性と十分性を向上可能
2. 影響(Why)
- RLVRで学習したモデルが「正しい推論」をしていると盲信するのは危険。回答が正解でも、思考過程が回答に寄与していないケースが多発する
- 推論の信頼性を担保するには、最終結果のみを報酬とする既存のRLVR設計を見直し、推論過程の因果性を評価する補助報酬の導入が不可欠
- 開発者への影響: RLVRを用いた推論モデルの学習パイプラインを構築しているエンジニアは、本論文の手法に基づき、推論過程の因果性を評価する補助報酬を導入してモデルの推論品質を再検証すべきである。
- 日本への影響: 国内固有の追加文脈は限定的(汎用的に有用)。
3. 根拠・詳細(How)
- ReasoningGym tasks: スコア 0
- Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning (2026-04-23 公開)