🛠Tools🔥

Project Gutenberg、7.5万冊以上の著作権切れ書籍を公開──LLM学習用データセット基盤

1971年から続くボランティア主導のプロジェクトで、7.5万冊以上のパブリックドメイン書籍をEPUBやテキスト形式で提供し、LLMの事前学習やRAG評価の信頼できるソースとなっている。

リリース: 2003-01-01 · 読了 2
何が起きた
  • 75,000冊以上の著作権が失効した電子書籍を無料で提供しており、登録不要でダウンロード可能

  • EPUB、Kindle、プレーンテキストなど複数のフォーマットに対応し、機械可読性が高い

  • 1971年に開始された世界最古の電子図書館で、数千人のボランティアが手動で校正を行っている

なぜ重要
  • 著作権リスクを回避しつつ、高品質な長文の英語テキストを大量に確保できるため、RAGの評価データやLLMの微調整に最適である

  • ボランティアによる手動校正が繰り返されており、OCRミスが極めて少ないクリーンなコーパスとして「生の人間の知性」を学習させるのに適している

👁️ 開発者

開発者は API やバルクダウンロードを通じて、商用利用可能な大規模テキストデータを即座に取得し、ベクトルデータベースの検証用インデックスとして活用できる。

🇯🇵 日本

国内の LLM 開発チーム(特に多言語対応や翻訳モデルを扱うスタートアップ)は、英語の古典文学をベースにした「ハルシネーションの起きにくい」ベンチマークセットを構築する際の標準的なソースとして利用できる。