Boson AI、多言語 TTS モデル Higgs Audio v3 を公開──100 言語超に対応し感情や効果音をインライン制御
100 以上の言語でゼロショット音声クローンが可能。単なる読み上げではなく、笑い声やため息などの効果音、感情、抑揚をテキスト内のタグで精密に制御できる。
リリース: 2026-06-04 · 読了 3 分何が起きた
100 以上の言語に対応し、日本語を含む主要言語で一桁台の WER(単語誤り率)を達成
テキスト内にタグを挿入することで、笑い、咳、ため息、叫びなどの効果音や 20 種類以上の感情を生成可能
推論エンジン SGLang-Omni と統合されており、H100 環境で高いスループットとサブ秒の TTFT(最初の音声までの時間)を実現
40 億パラメータ(4B)の自己回帰デコーダ構成で、非商用・研究目的のライセンスで公開
なぜ重要
従来の TTS では困難だった「会話の文脈に応じた感情表現や非言語音」を制御タグ一つで実装できるため、AI エージェントの表現力が飛躍的に向上する
SGLang-Omni によるプロダクションレベルのサービング構成が提供されており、自前インフラへのデプロイ障壁が低い
👁️ 開発者
AI エージェント開発者は、複雑な後処理なしに「笑いながら話す」「ささやく」といった高度な音声演出を API 経由で即座に組み込めるようになる。
🇯🇵 日本
日本語の精度も高く、国内のカスタマーサポート AI やエンタメ系チャットボットを開発するスタートアップにとって、商用ライセンス検討の有力な選択肢となる。