Tencent、1.25-bit 量子化翻訳モデル Hy-MT1.5-1.8B を公開──440MB で 72B 級の精度を実現 | Jum Blog

News Articles Projects About

🧠Research🔥🔥

LLM Quantization Translation

Tencent、1.25-bit 量子化翻訳モデル Hy-MT1.5-1.8B を公開──440MB で 72B 級の精度を実現

ACL 2026 採択の Sherry アルゴリズムを採用し、スマホ CPU で 72B モデルを凌駕する翻訳品質をオフラインで実現。

リリース: 2026-05-08 · 読了 3 分

何が起きた

Tencent Hunyuan チームが開発した 1.8B パラメータの翻訳特化モデルを 1.25-bit (440MB) に圧縮。
量子化手法 Sherry は 3:4 の細粒度スパース性を利用し、FP16 比で約 8 倍の推論速度と 8 分の 1 のサイズを達成。
Flores-200 ベンチマークにおいて、Tower-Plus-72B や Qwen3-32B などの巨大モデルを上回る翻訳精度を記録。
Snapdragon 888 などのモバイル CPU に最適化した STQ カーネルを提供し、llama.cpp への統合 PR も公開済み。

なぜ重要

「巨大モデルをクラウドで回す」常識に対し、特化型小規模モデルの極限量子化が、コストとプライバシーの両面で商用 API の代替になり得ることを示した。
1.25-bit という極低ビットでも、適切なスパース性制御（Sherry）があれば、実用レベルの精度を維持できることが証明された。

👁️ 開発者

Android アプリ開発者は、440MB のモデルを同梱するだけで、ネットワーク不要かつ GPT-4 級の翻訳機能をデバイス完結で実装可能になる。

🇯🇵 日本

訪日外国人向けアプリや機密情報を扱う国内の製造・金融業において、外部 API へのデータ流出を避けつつ、高精度な多言語翻訳を安価なスマホ端末で提供できる。

T1AngelSlim/Hy-MT1.5-1.8B-1.25bit · Hugging Face (2025-12-30 公開)

T2Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization (2026-01-13 公開)

📁 GitHub 📘 Docs 🎮 Demo

← 日別ページに戻るカテゴリ一覧 (research)