Simon Willison、LlamaIndex の LiteParse をブラウザへ移植──PDF テキスト抽出をクライアントサイドで実現

Node.js 専用だった LiteParse を Claude Code を活用してブラウザアプリ化し、PDF.js と Tesseract.js によりローカル環境でのテキスト解析と OCR を可能にした。

リリース: 2026-04-23 · 読了 3
何が起きた
  • LlamaIndex の CLI ツール「LiteParse」をブラウザ環境へ移植し、Web アプリとして公開

  • PDF.js および Tesseract.js を活用し、サーバー不要でローカルでのテキスト抽出と OCR を実現

  • 開発プロセス全体を Claude Code との対話を通じて実行し、GitHub Actions による自動デプロイを構築

  • 空間的テキスト解析(Spatial text parsing)により、複雑なマルチカラムレイアウトの PDF も論理順序で抽出可能

なぜ重要
  • 機密性の高い PDF を外部サーバーに送ることなく、ブラウザ内で完結してテキスト抽出や RAG 用のデータ加工が可能になる

  • AI エージェント開発における Claude Code の実用的なワークフローと、GitHub Pages を活用した迅速なデプロイ手法を提示

👁️ 開発者

PDF 解析ライブラリをブラウザへ移植する際の技術的課題(Stream API やブラウザ間差異)の解決策として参考になる。また、Claude Code を用いた TDD(テスト駆動開発)と小規模コミットの運用事例として有用。

🇯🇵 日本

日本国内の企業やエンジニアにとって、プライバシー制限でクラウド上の LLM に直接 PDF を送信できない環境での RAG 前処理ツールとして有力な選択肢となる。