🛠Tools🔥🔥

Anna’s Archive、LLM 向けメタデータ規格 `llms.txt` 公開──一括取得 API でクローリング負荷を抑制

LLM クローラーに対し、CAPTCHA 回避ではなく Torrent や JSON API による効率的なデータ取得と、寄付による高速 SFTP アクセスを提案する。

リリース: 2026-02-18 · 読了 3
何が起きた
  • Anna’s Archive が `llms.txt` を導入し、LLM クローラー向けに最適化されたデータ取得経路を明文化した。

  • メタデータ一括取得用の `aa_derived_mirror_metadata` や Torrent 情報の JSON API を提供し、サイト負荷を抑えた収集を推奨。

  • エンタープライズ向けの寄付特典として、クローリングより高速な SFTP アクセス権を用意し、Monero (XMR) 等での匿名寄付も受け付ける。

なぜ重要
  • Web サイト側が LLM を「排除すべき敵」ではなく「対価を払うべき利用者」として定義し、専用のデータ提供インターフェースを整備する動きが具体化した。

👁️ 開発者

データセット収集エンジニアは、自作クローラーによる CAPTCHA 回避の実装コストを捨て、公式の Torrent や API 経由での取得に切り替えることで、パイプラインの安定性を大幅に高められる。

🇯🇵 日本

国内の LLM 開発チーム(特に研究機関やスタートアップ)は、大規模な多言語コーパスを収集する際、Anna’s Archive のメタデータを活用することで、日本語を含む学術情報のフィルタリング精度を向上させることが可能になる。