Artificial AnalysisとIBM、エージェント評価ベンチマーク「ITBench-AA」を公開──SREタスクで最高47%の精度
Kubernetes環境の障害診断能力を測定する新指標で、Claude Opus 4.7やGPT-5.5を含む全モデルが50%を下回り、エージェントの推論能力に課題が残る結果となった。
リリース: 2026-05-27 · 読了 3 分何が起きた
Claude Opus 4.7が47%で首位、GPT-5.5が46%、Qwen3.7 Maxが42%で続く
オープンウェイトモデルではGLM-5.1 (Reasoning)が40%で最高性能を記録
全59タスクで構成され、Kubernetesのログやメトリクスを用いた根本原因特定を評価
Gemma 4 31Bは1タスクあたり$0.14のコストで37%のスコアを達成し、Gemini 3.1 Pro Preview(30%/$2.23)を上回る
なぜ重要
「推論ステップ数が多い=高精度」という相関は成立せず、過剰な調査は誤検知を招くため、エージェントの自律的な調査終了判断の精度が実務運用の分かれ目になる。
商用APIとオープンウェイトモデルのコスト・性能差が縮小しており、オンプレミス環境で完結するSREエージェント構築の現実的な選択肢が増えた。
👁️ 開発者
SRE業務の自動化を検討するエンジニアは、エージェントの「推論の深さ」を調整し、誤検知を減らすためのプロンプト設計や評価指標の再定義が必須となる。
🇯🇵 日本
国内のSaaS運用チームや大規模インフラを抱える企業は、既存の障害対応フローを自動化する際、本ベンチマークをベースに自社環境のログを用いた独自の評価パイプラインを構築することが推奨される。