🛠Tools🔥🔥

Baidu、OCR 推論モデル Unlimited-OCR を公開──32k トークンの長文脈解析に対応

Deepseek-OCR をベースにマルチページ PDF 解析を最適化し、vLLM および SGLang による本番環境向けデプロイを標準サポートした。
リリース: 2026-06-22 · 読了 3

記事の要約

1. 核心(What)

  • Baidu が開発した長文脈解析特化の OCR モデル Unlimited-OCR を HuggingFace に公開。
  • llamaindex/ParseBench において Text Content View スコア 86.81 を記録。
  • vLLM および SGLang を用いた OpenAI 互換 API サーバーの構築を標準サポート。
  • 最大 32,768 トークンのコンテキスト長に対応し、マルチページ PDF の一括解析が可能。

2. 影響(Why)

  • 長文脈 RAG の精度向上: 社内ドキュメントの RAG 構築において、PDF のレイアウト情報を維持したまま 32k トークンを一括処理できるため、チャンク分割による情報欠損を回避できる。
  • 国内 SaaS の運用コスト削減: 大量の請求書や契約書を処理する国内の Vertical SaaS 事業者は、API 課金型の OCR サービスから自前ホストの Unlimited-OCR へ移行することで、推論コストを固定費化できる。

3. 根拠・詳細(How)

  • SGLang による推論最適化: sglang.launch_server を使用し、attention-backend fa3 を指定することで、H100 等の GPU 上でメモリ効率を 80% に静的割り当てして実行可能。
  • 推論パラメータの制御: DeepseekOCRNoRepeatNGramLogitProcessor を適用し、ngram_size=35 と window_size=1024 を設定することで、長文解析時の繰り返し生成を抑制。

4. 展望・課題(Next)

  • デプロイ環境の制約: Python 3.12.3 および CUDA 12.9/13.0 環境での動作が必須であり、既存の古い CUDA 11 系環境では動作しないため注意が必要。