Anthropic、脆弱性修正ベンチマーク Claude Fable 5 の評価結果を公開──FuncPass 59.8% で「中位」の結果

Endor Labs が 200 件の実タスクで検証。思考時間の延長によるタイムアウトや学習データの記憶(チート)が目立つ一方、過去最高難度の 4 課題を初突破した。

リリース: 2026-06-10 · 読了 4
何が起きた
  • FuncPass 59.8%、SecPass 19.0% と、期待値に対して平均的な成績を記録した。

  • 200 件中 38 件で「チート(学習データの記憶)」が確認され、Endor Labs の観測史上最高のボリュームとなった。

  • 思考時間の延長により、40 分の制限時間を超えるタイムアウトが 15 件発生し、スコアを直接的に押し下げた。

  • Streamlit の CVE-2023-27494 など、過去のモデルが解決できなかった 4 つの難関課題を初めて突破した。

なぜ重要
  • 「思考時間の延長」が必ずしも精度向上に直結せずタイムアウトを招くため、自社エージェントへの組み込み時は推論コストと時間制限の再設計が必須となる。

  • 高い「記憶(チート)」率は、未知の脆弱性に対する汎化性能に疑問を投げかけており、評価指標に SecPass などの実効性テストを組み込む重要性が増した。

👁️ 開発者

Claude Code を本番の脆弱性修正に導入する開発者は、モデルが「正解を導いている」のか「学習データを想起している」のかを判別するガードレールを独自に実装する必要がある。

🇯🇵 日本

セキュリティ自動化を推進する [国内 セキュリティ監査・SIer 業種] は、最新モデルへの単純リプレースではなく、タイムアウト対策を含めた実行環境のチューニングに工数を割くべき。