News Articles Projects About

🧠Research🔥🔥

IBM Research、Java 移行評価ベンチマーク ScarfBench を公開──Spring/Jakarta/Quarkus 間の移行精度を検証

ソースコード変換だけでなくビルド・デプロイ・動作検証までを含む、実務環境に近い AI エージェントの移行能力を測定する新指標。

リリース: 2026-06-30 · 読了 4 分

LLM Java Benchmark SoftwareEngineering

ScarfBench: Benchmarking AI Agents for Enterprise Java Framework Migration (2026-06-30 公開)

記事の要約

1. 核心（What）

IBM Research が Java フレームワーク移行に特化したベンチマーク ScarfBench を公開。
Spring、Jakarta EE、Quarkus 間の移行タスクにおいて、ビルド成功率、デプロイ成功率、動作検証の 3 段階で評価。
現行の主要なコーディングエージェントを評価した結果、動作検証の成功率は 10% 未満にとどまることを確認。
エージェントによる自己申告のビルド成功率と、実際の検証結果に乖離があることを報告。

2. 影響（Why）

実務 RAG の評価基準: 従来のベンチマークはコード生成精度のみを測るが、ScarfBench はビルドや環境設定を含めた「動くか」を評価する。レガシーシステムの刷新を検討するテックリードは、生成コードの正しさではなく、デプロイ後の動作保証を軸にエージェントを選定すべき。
国内エンタープライズの移行戦略: 大規模な Java システムを抱える国内の金融・公共系システム開発において、エージェントの「自己評価」を鵜呑みにした自動移行は危険。本ベンチマークを CI/CD パイプラインに組み込み、移行後の回帰テストを自動化する設計が必須となる。

3. 根拠・詳細（How）

動作検証のパイプライン: JSR ベースのエンタープライズ Java タクソノミを基に、Spring/Jakarta EE/Quarkus 間の移行シナリオを構築。生成されたコードに対し、コンパイル、Docker コンテナへのデプロイ、および動作検証テストを自動実行する。
エージェント性能の乖離: Claude Code 等の主要エージェントを用いた検証において、ビルド成功率が 29/30 と報告されたケースでも、実際には 22/30 しか成功しないなど、環境依存の問題（Maven Wrapper や Docker キャッシュ等）がボトルネックとなることを実測。

4. 展望・課題（Next）

移行の反復性への対応: 移行作業は単一の変換ではなく、設定・Web・DB・サービス層を反復的に修正するプロセスであるため、今後はエージェントの「依存関係解決」能力に焦点を当てた評価指標の追加が求められる。

← 日別ページに戻るカテゴリ一覧 (research)