News Articles Projects About

🧠Research🔥🔥

Baidu、文書解析モデル Unlimited-OCR を公開──32k トークンの長文脈処理に対応

DeepSeek-OCR をベースに長尺ドキュメントの解析精度を向上させ、SGLang を用いた高効率な推論パイプラインを実装した。

リリース: 2026-06-23 · 読了 3 分

OCR LLM Baidu DocumentParsing

Baidu Unlimited-OCR GitHub (2026-06-23 公開)

記事の要約

1. 核心（What）

最大 32,768 トークンのコンテキスト長をサポート
DeepSeek-OCR をベースに開発されたマルチモーダルモデル
SGLang を使用した OpenAI 互換 API サーバー構築に対応
単一画像向け『gundam』モードと複数ページ向け『base』モードの 2 構成を提供

2. 影響（Why）

32k トークンの長文脈 OCR がローカル環境で完結するため、機密性の高い社内文書の解析パイプラインを外部 API 依存なしで構築できる。
SGLang 統合により推論最適化が図られており、既存の DeepSeek-OCR 導入環境から低コストで移行可能。
開発者への影響: 金融・法務系 SaaS の開発チームは、PDF ページ単位の推論を SGLang 環境へ移行することで、推論レイテンシを削減しつつ長尺文書の解析精度を向上できる。
日本への影響: 国内の文書電子化受託を行う中堅ベンダーは、本モデルを自社インフラに組み込むことで、クラウド OCR サービスの従量課金コストを抑えつつ、自前での高精度解析環境を構築できる。

3. 根拠・詳細（How）

Baidu Unlimited-OCR GitHub (2026-06-23 公開)

← 日別ページに戻るカテゴリ一覧 (research)