HiDream-ai、画像生成モデル HiDream-O1-Image を公開──VAE 不要の統一アーキテクチャで 2,048px 生成

8B パラメータの Pixel-level Unified Transformer を採用し、テキスト・ピクセル・タスクを単一空間で処理することで、高精度なテキスト描画と IP 保持を実現した。

リリース: 2026-05-08 · 読了 3
何が起きた
  • 8B パラメータの Pixel-level Unified Transformer (UiT) を採用し、外部 VAE や独立したテキストエンコーダーを介さず生ピクセルを直接処理する

  • 最大 2,048 × 2,048 ピクセルの高解像度画像をネイティブに生成し、Artificial Analysis Text to Image Arena で初登場 8 位にランクインした

  • 推論前にレイアウトや物理ロジックを思考する「Reasoning-Driven Prompt Agent」を搭載し、複雑なプロンプトへの追従性を強化している

  • 単一のモデルでテキストからの生成、画像編集、複数参照画像を用いた特定被写体の固定(Subject-driven personalization)に対応する

なぜ重要
  • VAE を排除したエンドツーエンドなピクセル生成により、従来の拡散モデルで課題だった境界のアーティファクトを抑制しつつ、推論パイプラインを劇的に簡素化できる

  • 8B という軽量なスケールながら、クローズドな巨大モデルに匹敵する文字レンダリング精度と構図制御能力をオープンウェイトで提供している

👁️ 開発者

画像生成アプリケーションを開発するエンジニアは、これまで LoRA や ControlNet を組み合わせて実現していた「特定キャラクターの固定」や「正確な文字入れ」を、単一のモデルとシンプルな推論コードだけで実装可能になる。

🇯🇵 日本

広告クリエイティブやゲーム開発を行う国内スタジオにおいて、IP(知的財産)の同一性を保ったまま高解像度な素材を生成する内製ツールの基盤として、商用 API に依存しない強力な選択肢が加わった。