🛠Tools🔥🔥

開発者、データ調査ツール「Are You in the Weights?」を公開──自分のデータが LLM 学習に使われたか判定

GitHub ユーザー名やドメインを入力し、Common Crawl や The Stack などの主要データセットに含まれているかを瞬時に照会できる。

リリース: 2026-06-20 · 読了 2
何が起きた
  • GitHub ID、ドメイン名、メールアドレス等の識別子をキーに、LLM の学習ソースとして多用されるデータセット内を検索する。

  • Common Crawl、The Stack (BigCode)、Wikipedia などの大規模コーパスをインデックス化している。

  • Hacker News の「Show HN」にて公開され、開発者自身のコードや発言がどのモデルの「重み」に寄与したかを可視化する。

なぜ重要
  • 自社プロダクトのドキュメントや OSS コードが、どの程度 AI 学習に「吸い上げられた」かを定量的に把握し、ライセンス遵守やオプトアウトの判断材料にできる。

👁️ 開発者

OSS ライブラリのメンテナーや技術ブログ運営者は、自分のコンテンツが Llama や StarCoder 等の基盤モデルに組み込まれている実態を把握し、robots.txt やライセンス表示の厳格化を検討する契機となる。

🇯🇵 日本

国内の技術ブログ媒体や特定ドメインの SaaS 運営企業は、自社コンテンツの「学習済み」率を確認することで、将来的な著作権法 30 条の 4 に基づく権利主張の根拠データとして活用できる。