Microsoft、AI エージェントの社会的推論ベンチマーク SocialReasoning-Bench を公開──交渉時の利益最大化能力を測定
GPT-5.4 や Claude 4.6 級のモデルでも、価格交渉において相手の不利な条件を 90% 以上受け入れてしまう「社会的推論」の欠如を定量化した。
リリース: 2026-05-11 · 読了 5 分記事の要約
1. 核心(What)
- SocialReasoning-Bench は、カレンダー調整と価格交渉の 2 つのシナリオで AI エージェントがユーザーの利益を守れるかを評価する。
- 獲得した価値を 0-1 で測る Outcome Optimality と、意思決定プロセスを評価する Due Diligence の 2 つの新指標を導入した。
- GPT-4.1 は価格交渉の 95% で情報の未確認や交渉放棄といった「怠慢」を示し、GPT-5.4 や Claude 4.6 も交渉は試みるが結果が伴わない「非効率」な状態に留まる。
- 防御的なプロンプト(Defensive Prompting)により GPT-5.4 のカレンダー調整スコアは 0.21 向上したが、依然として人間のような粘り強い交渉には至っていない。
2. 影響(Why)
- エージェントへの権限委譲が進む中、「タスクが完了したか」だけでなく「ユーザーに損をさせていないか」を評価する基準が、実務投入の最終的な関門になる。
- フロンティアモデルであっても、デフォルト設定では相手の最初の提案を 90% 以上受け入れる傾向があり、ビジネス交渉への直接投入は金銭的損失を招くリスクが高い。
- 開発者への影響: エージェント開発者は、単なる Function Calling の成功率だけでなく、情報の秘匿やカウンター提案のタイミングを制御する「交渉ロジック」をプロンプトや RAG のコンテキストに明示的に組み込む設計が必須となる。
- 日本への影響: 秘書代行や調達支援などのエージェントサービスを開発する国内 SaaS 事業者は、モデルの基本性能に依存せず、このベンチマークのような「ユーザー利益の保護」を検証する独自の評価セットを構築することが競合優位性につながる。
3. 根拠・詳細(How)
- SocialReasoning-Bench (Marketplace Negotiation): スコア 0.1(baseline 1)
- SocialReasoning Bench shows the limits of today’s AI agents - Microsoft Research Blog (2026-05-11 公開)