Boson AI、多言語 TTS モデル Higgs Audio v3 を公開──100 言語超に対応し感情や効果音をインライン制御

100 以上の言語でゼロショット音声クローンが可能。単なる読み上げではなく、笑い声やため息などの効果音、感情、抑揚をテキスト内のタグで精密に制御できる。

リリース: 2026-06-04 · 読了 3
何が起きた
  • 100 以上の言語に対応し、日本語を含む主要言語で一桁台の WER(単語誤り率)を達成

  • テキスト内にタグを挿入することで、笑い、咳、ため息、叫びなどの効果音や 20 種類以上の感情を生成可能

  • 推論エンジン SGLang-Omni と統合されており、H100 環境で高いスループットとサブ秒の TTFT(最初の音声までの時間)を実現

  • 40 億パラメータ(4B)の自己回帰デコーダ構成で、非商用・研究目的のライセンスで公開

なぜ重要
  • 従来の TTS では困難だった「会話の文脈に応じた感情表現や非言語音」を制御タグ一つで実装できるため、AI エージェントの表現力が飛躍的に向上する

  • SGLang-Omni によるプロダクションレベルのサービング構成が提供されており、自前インフラへのデプロイ障壁が低い

👁️ 開発者

AI エージェント開発者は、複雑な後処理なしに「笑いながら話す」「ささやく」といった高度な音声演出を API 経由で即座に組み込めるようになる。

🇯🇵 日本

日本語の精度も高く、国内のカスタマーサポート AI やエンタメ系チャットボットを開発するスタートアップにとって、商用ライセンス検討の有力な選択肢となる。