LlamaIndex、企業文書解析評価用ベンチマーク ParseBench を公開──16.9 万件のテストルールを実装
金融や保険など実務で使われる約 2,000 ページの文書を対象に、表構造やグラフ抽出など 5 つの次元で文書解析システムの精度を厳密に評価する。
リリース: 2026-04-09 · 読了 3 分記事の要約
1. 核心(What)
- 約 2,000 ページの人間による検証済み企業文書を収録
- 表、グラフ、コンテンツの忠実度、セマンティックな書式、視覚的根拠の 5 次元で評価
- 169,000 件以上のテストルールを網羅し、解析システムの弱点を詳細に診断可能
- VLM による自動ラベル付けと人手による修正を組み合わせた高精度なアノテーション
2. 影響(Why)
- エージェントワークフローで致命的となる表構造の誤りやハルシネーションを、実務レベルの文書で定量的に測定できる。
- 解析パイプラインの構成要素ごとにスコアリング可能なため、RAG システムの精度改善サイクルを高速化する。
- 開発者への影響: 開発者は自身の文書解析パイプラインを本ベンチマークでテストすることで、特定のドキュメント形式や複雑なレイアウトにおける解析精度を詳細に把握し、最適化が可能になる。
- 日本への影響: 日本語を含む多言語文書や複雑な表組みが多い日本の金融・行政文書の自動処理において、解析システムの信頼性向上に貢献する。
3. 根拠・詳細(How)
- llamaindex/ParseBench · Datasets at Hugging Face