開発者、データ調査ツール「Are You in the Weights?」を公開──自分のデータが LLM 学習に使われたか判定

🛠Tools🔥🔥

GitHub ユーザー名やドメインを入力し、Common Crawl や The Stack などの主要データセットに含まれているかを瞬時に照会できる。

リリース: 2026-06-20 · 読了 2 分

何が起きた

なぜ重要

👁️ 開発者

OSS ライブラリのメンテナーや技術ブログ運営者は、自分のコンテンツが Llama や StarCoder 等の基盤モデルに組み込まれている実態を把握し、robots.txt やライセンス表示の厳格化を検討する契機となる。

🇯🇵 日本

国内の技術ブログ媒体や特定ドメインの SaaS 運営企業は、自社コンテンツの「学習済み」率を確認することで、将来的な著作権法 30 条の 4 に基づく権利主張の根拠データとして活用できる。