🧠 research

2026-05-29 · 5 topics

Laguna、エージェント特化型 MoE モデル「M.1」「XS.2」を発表──225.8B/33.4B パラメータで SWE-bench に対応

SWE-bench Verified 等のコーディングベンチマークで SOTA 級の性能を達成し、XS.2 は Apache 2.0 ライセンスで公開された。

エージェントの報酬ハッキングをモデル修正なしで抑制する制約最適化フレームワークLCO

自己推論と進化的サンプリングを組み合わせ、自律エージェントの有害な過剰最適化を低減。（原題: LCO: LLM-based Constraint Optimization for Safer Agentic LLMs in Real-world Tasks）

NVIDIA Research、ロボットのシミュレーションから実世界への転移を加速する新手法を ICRA で発表

Isaac Lab を活用した sim-to-real 手法により、マルチアーム協調や精密組み立ての成功率を最大 75% 向上させた。

Artificial AnalysisとIBM、エージェント評価ベンチマーク「ITBench-AA」を公開──SREタスクで最高47%の精度

Kubernetes環境の障害診断能力を測定する新指標で、Claude Opus 4.7やGPT-5.5を含む全モデルが50%を下回り、エージェントの推論能力に課題が残る結果となった。

JasperAI、画像生成学習用データセット MONET を公開──1 億枚規模で VAE 潜在表現まで事前計算済み

9 つのソースから 1 億 490 万枚を厳選し、VAE 潜在表現や多重キャプションを付与することで、画像生成モデルの学習コストを大幅に削減する。