JasperAI、画像生成学習用データセット MONET を公開──1 億枚規模で VAE 潜在表現まで事前計算済み
9 つのソースから 1 億 490 万枚を厳選し、VAE 潜在表現や多重キャプションを付与することで、画像生成モデルの学習コストを大幅に削減する。
リリース: 2026-05-20 · 読了 3 分何が起きた
MONET は 1 億 490 万枚の高品質な画像・テキストペアを収録したオープンデータセット。
Florence-2、InternVL3-8B、ShareGPT4V-7B、Gemini-2.5-flash-lite による 4 種類のキャプションを付与。
CLIP、DINOv2、SSCD の埋め込みベクトルに加え、SANA-VAE の潜在表現を事前計算済み。
構築には NVIDIA H200 および L40S GPU を使用し、約 17 万 5,000 GPU 時間を投入。
なぜ重要
VAE 潜在表現がデータセットに含まれているため、Latent Diffusion Model の学習時にエンコード工程を省略でき、GPU 負荷を直接的に低減できる。
ストリーミング可能な Parquet 形式でメタデータと埋め込みが提供されており、フル解像度の画像をダウンロードせずともフィルタリングや実験設計が可能。
👁️ 開発者
画像生成モデルの開発者は、データクリーニングやキャプション生成、潜在空間への変換といった前処理パイプラインを自前で組む必要がなくなり、モデルアーキテクチャの検証にリソースを集中できる。
🇯🇵 日本
国内の画像生成モデルを開発する中堅・スタートアップ企業は、本データセットをベースラインとして活用することで、独自データセットの構築にかかる計算コストを数千万円単位で圧縮できる。