研究チーム、オープンソースの世界モデル DVD-JEPA を公開──JEPA アーキテクチャの完全再現を可能に
Meta の V-JEPA 概念を継承し、離散トークンを用いたビデオ予測により、ピクセル生成を介さない効率的な世界理解と物理法則の学習をオープンな環境で実現した。
リリース: 2026-06-22 · 読了 3 分何が起きた
Meta の Yann LeCun が提唱する JEPA (Joint-Embedding Predictive Architecture) をベースにした、完全再現可能なオープンソースの世界モデル。
離散的な潜在空間 (Discrete Latent Space) を採用し、計算コストの高いピクセル生成を伴わずにビデオの次フレーム予測を実行する。
学習コード、モデル重み、データセットの構築パイプラインがすべて公開されており、商用 GPU 1 枚からでも検証可能な設計となっている。
なぜ重要
物理的な世界の因果関係を理解する「世界モデル」において、Sora 等の生成モデルとは異なる、推論効率に特化した JEPA 方式を自社データで即座に試行できる。
👁️ 開発者
ロボティクスや自律エージェントを開発するエンジニアは、高負荷な画像生成を介さずに、映像から「物理的な変化」のみを抽出する予測モデルを PyTorch ベースで直接実装できる。
🇯🇵 日本
搬送ロボットやピッキングシステムを開発する国内のロボティクス系スタートアップは、実環境の映像データから物理法則を学習させるための参照実装として、開発工数を数ヶ月単位で削減できる。