🧠Research🔥🔥

Tencent、1.25-bit 量子化翻訳モデル Hy-MT1.5-1.8B を公開──440MB で 72B 級の精度を実現

ACL 2026 採択の Sherry アルゴリズムを採用し、スマホ CPU で 72B モデルを凌駕する翻訳品質をオフラインで実現。
リリース: 2026-05-08 · 読了 3

記事の要約

1. 核心(What)

  • Tencent Hunyuan チームが開発した 1.8B パラメータの翻訳特化モデルを 1.25-bit (440MB) に圧縮。
  • 量子化手法 Sherry は 3:4 の細粒度スパース性を利用し、FP16 比で約 8 倍の推論速度と 8 分の 1 のサイズを達成。
  • Flores-200 ベンチマークにおいて、Tower-Plus-72B や Qwen3-32B などの巨大モデルを上回る翻訳精度を記録。
  • Snapdragon 888 などのモバイル CPU に最適化した STQ カーネルを提供し、llama.cpp への統合 PR も公開済み。

2. 影響(Why)

  • 「巨大モデルをクラウドで回す」常識に対し、特化型小規模モデルの極限量子化が、コストとプライバシーの両面で商用 API の代替になり得ることを示した。
  • 1.25-bit という極低ビットでも、適切なスパース性制御(Sherry)があれば、実用レベルの精度を維持できることが証明された。
  • 開発者への影響: Android アプリ開発者は、440MB のモデルを同梱するだけで、ネットワーク不要かつ GPT-4 級の翻訳機能をデバイス完結で実装可能になる。
  • 日本への影響: 訪日外国人向けアプリや機密情報を扱う国内の製造・金融業において、外部 API へのデータ流出を避けつつ、高精度な多言語翻訳を安価なスマホ端末で提供できる。

3. 根拠・詳細(How)

  • Flores-200: スコア 1(baseline 0.9)
  • AngelSlim/Hy-MT1.5-1.8B-1.25bit · Hugging Face (2025-12-30 公開)
  • Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization (2026-01-13 公開)