News Articles Projects About

🛠Tools🔥🔥

Baidu、OCR 推論モデル Unlimited-OCR を公開──32k トークンの長文脈解析に対応

Deepseek-OCR をベースにマルチページ PDF 解析を最適化し、vLLM および SGLang による本番環境向けデプロイを標準サポートした。

リリース: 2026-06-22 · 読了 3 分

OCR HuggingFace vLLM SGLang LLM

baidu/Unlimited-OCR Hugging Face Repository (2026-06-22 公開)

記事の要約

1. 核心（What）

Baidu が開発した長文脈解析特化の OCR モデル Unlimited-OCR を HuggingFace に公開。
llamaindex/ParseBench において Text Content View スコア 86.81 を記録。
vLLM および SGLang を用いた OpenAI 互換 API サーバーの構築を標準サポート。
最大 32,768 トークンのコンテキスト長に対応し、マルチページ PDF の一括解析が可能。

2. 影響（Why）

長文脈 RAG の精度向上: 社内ドキュメントの RAG 構築において、PDF のレイアウト情報を維持したまま 32k トークンを一括処理できるため、チャンク分割による情報欠損を回避できる。
国内 SaaS の運用コスト削減: 大量の請求書や契約書を処理する国内の Vertical SaaS 事業者は、API 課金型の OCR サービスから自前ホストの Unlimited-OCR へ移行することで、推論コストを固定費化できる。

3. 根拠・詳細（How）

SGLang による推論最適化: sglang.launch_server を使用し、attention-backend fa3 を指定することで、H100 等の GPU 上でメモリ効率を 80% に静的割り当てして実行可能。
推論パラメータの制御: DeepseekOCRNoRepeatNGramLogitProcessor を適用し、ngram_size=35 と window_size=1024 を設定することで、長文解析時の繰り返し生成を抑制。

4. 展望・課題（Next）

デプロイ環境の制約: Python 3.12.3 および CUDA 12.9/13.0 環境での動作が必須であり、既存の古い CUDA 11 系環境では動作しないため注意が必要。

📘 Docs 🎮 Demo

← 日別ページに戻るカテゴリ一覧 (tools)