RLVR(検証可能な報酬を用いた強化学習)が思考過程の質に与える影響をCIRとSRで定量化。補助報酬の追加で回答精度を維持しつつ推論の因果性を向上。(原題: Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning)
3階層70種類のスキルで30以上の専門ツールを統合し、創薬タスクの成功率をSOTA水準へ引き上げ。(原題: MolClaw: An Autonomous Agent with Hierarchical Skills for Drug Molecule Evaluation, Screening, and Optimization)