Efficient-Large-Model、1分間の動画生成モデル SANA-WM を公開──6自由度のカメラ制御に対応

🧠Research🔥

Hybrid Linear Attention を採用した 2.6B パラメータの軽量構成で、720p 解像度の長尺生成と精密なカメラワーク制御を Apache 2.0 ライセンスで実現した。

リリース: 2026-05-14 · 読了 3 分

何が起きた

2.6B パラメータの Image-to-Video Diffusion Transformer 構成で、720p (704x1280) 解像度の動画生成に対応。
Hybrid Linear Attention (Gated DeltaNet) の導入により、メモリ消費を抑えつつ 1 分間（321フレーム）の長尺動画をネイティブに生成可能。
独立したカメラ制御ブランチを搭載し、並進・回転を含む 6自由度 (6-DoF) の軌道指定による正確なカメラワーク操作を実現。
Apache 2.0 ライセンスで公開され、Gemma-2-2B-it をテキストエンコーダー、LTX-2 をリファイナーとして組み合わせて使用する。

なぜ重要

👁️ 開発者

2.6B と軽量なため、24GB VRAM の GPU 1 枚で 1 分間の動画生成が完結し、独自のカメラ軌道データを用いたファインチューニングやデータ合成パイプラインの構築が容易になる。

🇯🇵 日本

国内の [ゲーム・CG 制作業種] の中規模スタジオは、高価な物理シミュレーション環境を構築せずとも、本モデルをベースに特定のカメラワークに特化した動画素材を量産できる。