Stanford、画像生成データセット GPIC を公開──商用利用可能な 1 億枚・28 兆ピクセルの巨大コーパス

Li Fei-Fei 教授らによる、著作権リスクを抑えた 1 億枚規模の画像・キャプション群。商用利用可能なオープンソース画像生成モデル開発の新たな標準となる。

リリース: 2026-05-28 · 読了 3
何が起きた
  • 1 億枚のトレーニング画像と 28 兆ピクセルで構成される、商用利用可能な巨大画像コーパス。

  • 最新の Vision-Language Model により生成された詳細なキャプションを全画像に付与。

  • 安全性のフィルタリング、重複排除が施され、Hugging Face 上で 8,000 個の tar ファイルとして提供。

  • ピクセル空間 Flow Matching のリファレンス実装と評価ツールキットを同梱。

なぜ重要
  • LAION 等のスクレイピングデータに伴う著作権リスクを回避しつつ、1 億枚規模の高品質データでモデルを学習できる。

  • 28 兆ピクセルという膨大な計算資源を要する実験において、再現性を担保するオープンな基盤が整った。

👁️ 開発者

画像生成モデルを開発するエンジニアは、LAION 等の法的懸念があるデータセットから脱却し、商用利用を前提としたクリーンな学習パイプラインを即座に構築できる。

🇯🇵 日本

国内の AI スタートアップや広告・クリエイティブ業界の R&D 部門は、権利関係がクリアな本データセットを基盤に据えることで、法務リスクを抑えた独自画像生成モデルの構築が可能になる。