Simon Willison、LlamaIndex の LiteParse をブラウザへ移植──PDF テキスト抽出をクライアントサイドで実現 | Jum Blog

News Articles Projects About

🛠Tools🔥🔥

Simon Willison LlamaIndex PDF

Simon Willison、LlamaIndex の LiteParse をブラウザへ移植──PDF テキスト抽出をクライアントサイドで実現

Node.js 専用だった LiteParse を Claude Code を活用してブラウザアプリ化し、PDF.js と Tesseract.js によりローカル環境でのテキスト解析と OCR を可能にした。

リリース: 2026-04-23 · 読了 3 分

何が起きた

LlamaIndex の CLI ツール「LiteParse」をブラウザ環境へ移植し、Web アプリとして公開
PDF.js および Tesseract.js を活用し、サーバー不要でローカルでのテキスト抽出と OCR を実現
開発プロセス全体を Claude Code との対話を通じて実行し、GitHub Actions による自動デプロイを構築
空間的テキスト解析（Spatial text parsing）により、複雑なマルチカラムレイアウトの PDF も論理順序で抽出可能

なぜ重要

機密性の高い PDF を外部サーバーに送ることなく、ブラウザ内で完結してテキスト抽出や RAG 用のデータ加工が可能になる
AI エージェント開発における Claude Code の実用的なワークフローと、GitHub Pages を活用した迅速なデプロイ手法を提示

👁️ 開発者

PDF 解析ライブラリをブラウザへ移植する際の技術的課題（Stream API やブラウザ間差異）の解決策として参考になる。また、Claude Code を用いた TDD（テスト駆動開発）と小規模コミットの運用事例として有用。

🇯🇵 日本

日本国内の企業やエンジニアにとって、プライバシー制限でクラウド上の LLM に直接 PDF を送信できない環境での RAG 前処理ツールとして有力な選択肢となる。

T1Extract PDF text in your browser with LiteParse for the web

📁 GitHub 🎮 Demo

← 日別ページに戻るカテゴリ一覧 (tools)