🛠Tools🔥

Project Gutenberg、7.5万冊以上の著作権切れ書籍を公開──LLM学習用データセット基盤

1971年から続くボランティア主導のプロジェクトで、7.5万冊以上のパブリックドメイン書籍をEPUBやテキスト形式で提供し、LLMの事前学習やRAG評価の信頼できるソースとなっている。
リリース: 2003-01-01 · 読了 2

記事の要約

1. 核心(What)

  • 75,000冊以上の著作権が失効した電子書籍を無料で提供しており、登録不要でダウンロード可能
  • EPUB、Kindle、プレーンテキストなど複数のフォーマットに対応し、機械可読性が高い
  • 1971年に開始された世界最古の電子図書館で、数千人のボランティアが手動で校正を行っている

2. 影響(Why)

  • 著作権リスクを回避しつつ、高品質な長文の英語テキストを大量に確保できるため、RAGの評価データやLLMの微調整に最適である
  • ボランティアによる手動校正が繰り返されており、OCRミスが極めて少ないクリーンなコーパスとして「生の人間の知性」を学習させるのに適している
  • 開発者への影響: 開発者は API やバルクダウンロードを通じて、商用利用可能な大規模テキストデータを即座に取得し、ベクトルデータベースの検証用インデックスとして活用できる。
  • 日本への影響: 国内の LLM 開発チーム(特に多言語対応や翻訳モデルを扱うスタートアップ)は、英語の古典文学をベースにした「ハルシネーションの起きにくい」ベンチマークセットを構築する際の標準的なソースとして利用できる。

3. 根拠・詳細(How)

  • Project Gutenberg 公式サイト (2003-01-01 公開)