Stanford、画像生成データセット GPIC を公開──商用利用可能な 1 億枚・28 兆ピクセルの巨大コーパス
Li Fei-Fei 教授らによる、著作権リスクを抑えた 1 億枚規模の画像・キャプション群。商用利用可能なオープンソース画像生成モデル開発の新たな標準となる。
リリース: 2026-05-28 · 読了 3 分何が起きた
1 億枚のトレーニング画像と 28 兆ピクセルで構成される、商用利用可能な巨大画像コーパス。
最新の Vision-Language Model により生成された詳細なキャプションを全画像に付与。
安全性のフィルタリング、重複排除が施され、Hugging Face 上で 8,000 個の tar ファイルとして提供。
ピクセル空間 Flow Matching のリファレンス実装と評価ツールキットを同梱。
なぜ重要
LAION 等のスクレイピングデータに伴う著作権リスクを回避しつつ、1 億枚規模の高品質データでモデルを学習できる。
28 兆ピクセルという膨大な計算資源を要する実験において、再現性を担保するオープンな基盤が整った。
👁️ 開発者
画像生成モデルを開発するエンジニアは、LAION 等の法的懸念があるデータセットから脱却し、商用利用を前提としたクリーンな学習パイプラインを即座に構築できる。
🇯🇵 日本
国内の AI スタートアップや広告・クリエイティブ業界の R&D 部門は、権利関係がクリアな本データセットを基盤に据えることで、法務リスクを抑えた独自画像生成モデルの構築が可能になる。