Google、マルチモーダルモデル Omni Flash を公開──実写動画への高度な被写体合成と編集を実現
従来の Veo を刷新し、動画や写真を元にした「Anything-to-Anything」の生成に対応。実写の人物を別環境へ合成する精度が向上し、テキストによる編集指示の追従性も強化された。
リリース: 2026-05-23 · 読了 3 分何が起きた
Google の新モデルファミリー Gemini Omni の第一弾「Omni Flash」が動画生成プラットフォーム Flow で利用可能になった。
既存モデル Veo と比較して、動画入力からの生成(Video-to-Video)やキャラクターの一貫性保持能力が向上している。
生成コストは 1 シーンあたり 15〜40 クレジットで、月額 20 ドルの AI Pro プラン(1,000 クレジット付属)で約 20〜50 本の生成が可能。
テキストによる動画編集機能を備え、特定の部位の削除や表情の強調といった指示への応答精度が改善された。
なぜ重要
実写動画への自然なオブジェクト挿入や背景置換が低コストで可能になり、広告クリエイティブのプロトタイピング速度が 10 倍単位で加速する。
「Anything-to-Anything」の思想により、アセットの形式を問わず相互変換が可能になるため、マルチモーダル RAG の出力表現が動画領域まで拡張される。
👁️ 開発者
動画生成 SDK を利用する開発者は、プロンプトのみの生成から「元動画 + 差分指示」による制御へ移行することで、ハルシネーションによる破綻を抑えた実用的な映像制作フローを構築できる。
🇯🇵 日本
[国内 広告代理店・制作プロダクション] 規模の組織は、ロケ撮影を行わずに特定人物を海外風景に合成する等の検証を内製化できる。ただし、ディープフェイクの倫理的・法的リスクへの対策が急務となる。