Project Gutenberg、7.5万冊以上の著作権切れ書籍を公開──LLM学習用データセット基盤
1971年から続くボランティア主導のプロジェクトで、7.5万冊以上のパブリックドメイン書籍をEPUBやテキスト形式で提供し、LLMの事前学習やRAG評価の信頼できるソースとなっている。
リリース: 2003-01-01 · 読了 2 分何が起きた
75,000冊以上の著作権が失効した電子書籍を無料で提供しており、登録不要でダウンロード可能
EPUB、Kindle、プレーンテキストなど複数のフォーマットに対応し、機械可読性が高い
1971年に開始された世界最古の電子図書館で、数千人のボランティアが手動で校正を行っている
なぜ重要
著作権リスクを回避しつつ、高品質な長文の英語テキストを大量に確保できるため、RAGの評価データやLLMの微調整に最適である
ボランティアによる手動校正が繰り返されており、OCRミスが極めて少ないクリーンなコーパスとして「生の人間の知性」を学習させるのに適している
👁️ 開発者
開発者は API やバルクダウンロードを通じて、商用利用可能な大規模テキストデータを即座に取得し、ベクトルデータベースの検証用インデックスとして活用できる。
🇯🇵 日本
国内の LLM 開発チーム(特に多言語対応や翻訳モデルを扱うスタートアップ)は、英語の古典文学をベースにした「ハルシネーションの起きにくい」ベンチマークセットを構築する際の標準的なソースとして利用できる。