IBM Research、Java 移行評価ベンチマーク ScarfBench を公開──Spring/Jakarta/Quarkus 間の移行精度を検証
ソースコード変換だけでなくビルド・デプロイ・動作検証までを含む、実務環境に近い AI エージェントの移行能力を測定する新指標。
リリース: 2026-06-30 · 読了 4 分記事の要約
1. 核心(What)
- IBM Research が Java フレームワーク移行に特化したベンチマーク ScarfBench を公開。
- Spring、Jakarta EE、Quarkus 間の移行タスクにおいて、ビルド成功率、デプロイ成功率、動作検証の 3 段階で評価。
- 現行の主要なコーディングエージェントを評価した結果、動作検証の成功率は 10% 未満にとどまることを確認。
- エージェントによる自己申告のビルド成功率と、実際の検証結果に乖離があることを報告。
2. 影響(Why)
- 実務 RAG の評価基準: 従来のベンチマークはコード生成精度のみを測るが、ScarfBench はビルドや環境設定を含めた「動くか」を評価する。レガシーシステムの刷新を検討するテックリードは、生成コードの正しさではなく、デプロイ後の動作保証を軸にエージェントを選定すべき。
- 国内エンタープライズの移行戦略: 大規模な Java システムを抱える国内の金融・公共系システム開発において、エージェントの「自己評価」を鵜呑みにした自動移行は危険。本ベンチマークを CI/CD パイプラインに組み込み、移行後の回帰テストを自動化する設計が必須となる。
3. 根拠・詳細(How)
- 動作検証のパイプライン: JSR ベースのエンタープライズ Java タクソノミを基に、Spring/Jakarta EE/Quarkus 間の移行シナリオを構築。生成されたコードに対し、コンパイル、Docker コンテナへのデプロイ、および動作検証テストを自動実行する。
- エージェント性能の乖離: Claude Code 等の主要エージェントを用いた検証において、ビルド成功率が 29/30 と報告されたケースでも、実際には 22/30 しか成功しないなど、環境依存の問題(Maven Wrapper や Docker キャッシュ等)がボトルネックとなることを実測。
4. 展望・課題(Next)
- 移行の反復性への対応: 移行作業は単一の変換ではなく、設定・Web・DB・サービス層を反復的に修正するプロセスであるため、今後はエージェントの「依存関係解決」能力に焦点を当てた評価指標の追加が求められる。