Text-to-SQL の複雑なクエリ生成を並列テストケース探索で改善、Spider 2.0 で 70.2% の SOTA 達成
ソフトウェアテストの網羅性概念を導入し、分割した小規模 SQL を並列実行・検証することで、推論の正確性と速度を両立。(原題: PExA: Parallel Exploration Agent for Complex Text-to-SQL)
リリース: 2026-04-24 · 読了 3 分記事の要約
1. 核心(What)
- Spider 2.0 ベンチマークにおいて実行精度 70.2% を記録し、従来の記録を塗り替える SOTA を樹立
- 元の複雑なクエリを、意味的網羅性を確保する複数の単純な「アトミック SQL」テストケースに分解する手法を提案
- 分解されたテストケースを並列実行することで、情報の収集効率を高め、最終的な SQL 生成の根拠(Grounding)として活用
- LLM エージェントが直面する「推論性能の向上に伴うレイテンシの増大」というトレードオフを、並列探索によって解消
2. 影響(Why)
- 複雑な DB スキーマに対する Text-to-SQL では、一発の生成で正解を出すのが困難。PExA の「並列テストによる網羅的探索」を知らないと、逐次的なリトライや巨大なプロンプトによるレイテンシ悪化を許容し続けることになる
- ソフトウェアテストの『網羅率(Coverage)』の考え方を LLM の推論プロセスに持ち込むことで、生成の根拠を構造的に担保する新しい設計指針を提示している
- 開発者への影響: 複雑な SQL 生成を伴う AI アプリケーションの開発者は、PExA の「テストケース分解と並列実行」という設計パターンを RAG パイプラインに取り入れるべき。特に Spider 2.0 クラスの難易度では、この手法が精度 70% 超えの鍵となる。
- 日本への影響: 国内固有の追加文脈は限定的(汎用的に有用)。
3. 根拠・詳細(How)
- Spider 2.0: スコア 70.2
- arXiv: PExA: Parallel Exploration Agent for Complex Text-to-SQL (2026-04-24 公開)