Tencent、1.25-bit 量子化翻訳モデル Hy-MT1.5-1.8B を公開──440MB で 72B 級の精度を実現
ACL 2026 採択の Sherry アルゴリズムを採用し、スマホ CPU で 72B モデルを凌駕する翻訳品質をオフラインで実現。
リリース: 2026-05-08 · 読了 3 分AngelSlim/Hy-MT1.5-1.8B-1.25bit · Hugging Face (2025-12-30 公開)Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization (2026-01-13 公開)
記事の要約
1. 核心(What)
- Tencent Hunyuan チームが開発した 1.8B パラメータの翻訳特化モデルを 1.25-bit (440MB) に圧縮。
- 量子化手法 Sherry は 3:4 の細粒度スパース性を利用し、FP16 比で約 8 倍の推論速度と 8 分の 1 のサイズを達成。
- Flores-200 ベンチマークにおいて、Tower-Plus-72B や Qwen3-32B などの巨大モデルを上回る翻訳精度を記録。
- Snapdragon 888 などのモバイル CPU に最適化した STQ カーネルを提供し、llama.cpp への統合 PR も公開済み。
2. 影響(Why)
- 「巨大モデルをクラウドで回す」常識に対し、特化型小規模モデルの極限量子化が、コストとプライバシーの両面で商用 API の代替になり得ることを示した。
- 1.25-bit という極低ビットでも、適切なスパース性制御(Sherry)があれば、実用レベルの精度を維持できることが証明された。
- 開発者への影響: Android アプリ開発者は、440MB のモデルを同梱するだけで、ネットワーク不要かつ GPT-4 級の翻訳機能をデバイス完結で実装可能になる。
- 日本への影響: 訪日外国人向けアプリや機密情報を扱う国内の製造・金融業において、外部 API へのデータ流出を避けつつ、高精度な多言語翻訳を安価なスマホ端末で提供できる。
3. 根拠・詳細(How)
- Flores-200: スコア 1(baseline 0.9)
- AngelSlim/Hy-MT1.5-1.8B-1.25bit · Hugging Face (2025-12-30 公開)
- Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization (2026-01-13 公開)