2026年5月10日 (日)

11件 · 66分
今日の主役は、数学的推論の精度と推論過程の可視化がもたらす信頼性の再定義だ。Google DeepMindの「AI co-mathematician」がFrontierMath Tier 4で48%という圧倒的なSOTAを記録し、AnthropicがClaudeに多段階推論の理由を教える学習手法を公開した事実は、モデルが「結果」だけでなく「思考の道筋」を保証するフェーズへ移行したことを意味する。OpenAIの次世代音声API群によるリアルタイム推論の拡充も、この高精度な推論基盤の恩恵をUI層へ直接持ち込む動きと見ていい。一方で、DELEGATE-52ベンチマークがLLMの委任ワークフローで25%の文書破損を突きつけた点は見落とせない。高機能化の裏で増大する推論エラーの検知コストをどう制御するか、各社の実装ロードマップを再検討しておきたい。
Since yesterday
New 11
Ongoing 0
Ended 17
🔥2026-05-09

腫瘍学の意思決定支援を 2 段構えのマルチエージェントで高度化──プライバシー保護と根拠性を両立

9B/27B モデルを使い分ける 2 層構造と LangGraph による 8 つの専門エージェントを統合。NCCN 等のガイドラインに基づく Corrective RAG で、オンプレミス環境での安全な臨床支援を実現。(原題: OncoAgent: A Dual-Tier Multi-Agent Framework for Privacy-Preserving Oncology Clinical Decision Support)
一部カテゴリが未達(11 件)