Efficient-Large-Model、1分間の動画生成モデル SANA-WM を公開──6自由度のカメラ制御に対応
Hybrid Linear Attention を採用した 2.6B パラメータの軽量構成で、720p 解像度の長尺生成と精密なカメラワーク制御を Apache 2.0 ライセンスで実現した。
リリース: 2026-05-14 · 読了 3 分何が起きた
2.6B パラメータの Image-to-Video Diffusion Transformer 構成で、720p (704x1280) 解像度の動画生成に対応。
Hybrid Linear Attention (Gated DeltaNet) の導入により、メモリ消費を抑えつつ 1 分間(321フレーム)の長尺動画をネイティブに生成可能。
独立したカメラ制御ブランチを搭載し、並進・回転を含む 6自由度 (6-DoF) の軌道指定による正確なカメラワーク操作を実現。
Apache 2.0 ライセンスで公開され、Gemma-2-2B-it をテキストエンコーダー、LTX-2 をリファイナーとして組み合わせて使用する。
なぜ重要
既存の動画生成モデルでは困難だった「秒単位を超える長尺」と「物理的に正確なカメラ制御」を単一の軽量モデルで両立しており、シミュレータ構築コストを大幅に下げる。
👁️ 開発者
2.6B と軽量なため、24GB VRAM の GPU 1 枚で 1 分間の動画生成が完結し、独自のカメラ軌道データを用いたファインチューニングやデータ合成パイプラインの構築が容易になる。
🇯🇵 日本
国内の [ゲーム・CG 制作業種] の中規模スタジオは、高価な物理シミュレーション環境を構築せずとも、本モデルをベースに特定のカメラワークに特化した動画素材を量産できる。