Tencent、1.25-bit 量子化翻訳モデル Hy-MT1.5-1.8B を公開──440MB で 72B 級の精度を実現
ACL 2026 採択の Sherry アルゴリズムを採用し、スマホ CPU で 72B モデルを凌駕する翻訳品質をオフラインで実現。
リリース: 2026-05-08 · 読了 3 分何が起きた
Tencent Hunyuan チームが開発した 1.8B パラメータの翻訳特化モデルを 1.25-bit (440MB) に圧縮。
量子化手法 Sherry は 3:4 の細粒度スパース性を利用し、FP16 比で約 8 倍の推論速度と 8 分の 1 のサイズを達成。
Flores-200 ベンチマークにおいて、Tower-Plus-72B や Qwen3-32B などの巨大モデルを上回る翻訳精度を記録。
Snapdragon 888 などのモバイル CPU に最適化した STQ カーネルを提供し、llama.cpp への統合 PR も公開済み。
なぜ重要
「巨大モデルをクラウドで回す」常識に対し、特化型小規模モデルの極限量子化が、コストとプライバシーの両面で商用 API の代替になり得ることを示した。
1.25-bit という極低ビットでも、適切なスパース性制御(Sherry)があれば、実用レベルの精度を維持できることが証明された。
👁️ 開発者
Android アプリ開発者は、440MB のモデルを同梱するだけで、ネットワーク不要かつ GPT-4 級の翻訳機能をデバイス完結で実装可能になる。
🇯🇵 日本
訪日外国人向けアプリや機密情報を扱う国内の製造・金融業において、外部 API へのデータ流出を避けつつ、高精度な多言語翻訳を安価なスマホ端末で提供できる。