開発者、データ調査ツール「Are You in the Weights?」を公開──自分のデータが LLM 学習に使われたか判定
GitHub ユーザー名やドメインを入力し、Common Crawl や The Stack などの主要データセットに含まれているかを瞬時に照会できる。
リリース: 2026-06-20 · 読了 2 分何が起きた
GitHub ID、ドメイン名、メールアドレス等の識別子をキーに、LLM の学習ソースとして多用されるデータセット内を検索する。
Common Crawl、The Stack (BigCode)、Wikipedia などの大規模コーパスをインデックス化している。
Hacker News の「Show HN」にて公開され、開発者自身のコードや発言がどのモデルの「重み」に寄与したかを可視化する。
なぜ重要
自社プロダクトのドキュメントや OSS コードが、どの程度 AI 学習に「吸い上げられた」かを定量的に把握し、ライセンス遵守やオプトアウトの判断材料にできる。
👁️ 開発者
OSS ライブラリのメンテナーや技術ブログ運営者は、自分のコンテンツが Llama や StarCoder 等の基盤モデルに組み込まれている実態を把握し、robots.txt やライセンス表示の厳格化を検討する契機となる。
🇯🇵 日本
国内の技術ブログ媒体や特定ドメインの SaaS 運営企業は、自社コンテンツの「学習済み」率を確認することで、将来的な著作権法 30 条の 4 に基づく権利主張の根拠データとして活用できる。