🧠Research🔥🔥

Baidu、文書解析モデル Unlimited-OCR を公開──32k トークンの長文脈処理に対応

DeepSeek-OCR をベースに長尺ドキュメントの解析精度を向上させ、SGLang を用いた高効率な推論パイプラインを実装した。
リリース: 2026-06-23 · 読了 3

記事の要約

1. 核心(What)

  • 最大 32,768 トークンのコンテキスト長をサポート
  • DeepSeek-OCR をベースに開発されたマルチモーダルモデル
  • SGLang を使用した OpenAI 互換 API サーバー構築に対応
  • 単一画像向け『gundam』モードと複数ページ向け『base』モードの 2 構成を提供

2. 影響(Why)

  • 32k トークンの長文脈 OCR がローカル環境で完結するため、機密性の高い社内文書の解析パイプラインを外部 API 依存なしで構築できる。
  • SGLang 統合により推論最適化が図られており、既存の DeepSeek-OCR 導入環境から低コストで移行可能。
  • 開発者への影響: 金融・法務系 SaaS の開発チームは、PDF ページ単位の推論を SGLang 環境へ移行することで、推論レイテンシを削減しつつ長尺文書の解析精度を向上できる。
  • 日本への影響: 国内の文書電子化受託を行う中堅ベンダーは、本モデルを自社インフラに組み込むことで、クラウド OCR サービスの従量課金コストを抑えつつ、自前での高精度解析環境を構築できる。

3. 根拠・詳細(How)

  • Baidu Unlimited-OCR GitHub (2026-06-23 公開)