🧠Research🔥🔥

Tencent、1.25-bit 量子化翻訳モデル Hy-MT1.5-1.8B を公開──440MB で 72B 級の精度を実現

ACL 2026 採択の Sherry アルゴリズムを採用し、スマホ CPU で 72B モデルを凌駕する翻訳品質をオフラインで実現。

リリース: 2026-05-08 · 読了 3
何が起きた
  • Tencent Hunyuan チームが開発した 1.8B パラメータの翻訳特化モデルを 1.25-bit (440MB) に圧縮。

  • 量子化手法 Sherry は 3:4 の細粒度スパース性を利用し、FP16 比で約 8 倍の推論速度と 8 分の 1 のサイズを達成。

  • Flores-200 ベンチマークにおいて、Tower-Plus-72B や Qwen3-32B などの巨大モデルを上回る翻訳精度を記録。

  • Snapdragon 888 などのモバイル CPU に最適化した STQ カーネルを提供し、llama.cpp への統合 PR も公開済み。

なぜ重要
  • 「巨大モデルをクラウドで回す」常識に対し、特化型小規模モデルの極限量子化が、コストとプライバシーの両面で商用 API の代替になり得ることを示した。

  • 1.25-bit という極低ビットでも、適切なスパース性制御(Sherry)があれば、実用レベルの精度を維持できることが証明された。

👁️ 開発者

Android アプリ開発者は、440MB のモデルを同梱するだけで、ネットワーク不要かつ GPT-4 級の翻訳機能をデバイス完結で実装可能になる。

🇯🇵 日本

訪日外国人向けアプリや機密情報を扱う国内の製造・金融業において、外部 API へのデータ流出を避けつつ、高精度な多言語翻訳を安価なスマホ端末で提供できる。