Intel、LLM 量子化ツール AutoRound v0.12.0 を公開──2-4bit の超低ビット幅で高精度を維持
Sign-gradient descent を活用し、単一 GPU で 7B モデルを 10 分で量子化可能な推論最適化ツール。
リリース: 2026-04-30 · 読了 3 分何が起きた
DeepSeek-R1 の INT2-mixed モデルで 97.9% の精度を保持
7B パラメータモデルを単一 GPU で約 10 分で量子化可能
vLLM、SGLang、Transformers との統合を標準サポート
FP8_BLOCK 量子化や MTP レイヤ量子化に新たに対応
なぜ重要
推論コストの劇的な削減が可能な 2-4bit 量子化が、商用環境でそのまま使える精度で実装できるようになった。
vLLM や SGLang との統合により、量子化モデルをそのまま本番環境の推論バックエンドに載せるまでの工数が最小化される。
👁️ 開発者
vLLM や SGLang を利用する開発者は、モデルの量子化フォーマットを AutoRound に統一することで、推論のレイテンシとメモリ使用量を最適化しつつ、精度劣化を最小限に抑えたデプロイが実現する。
🇯🇵 日本
国内のオンプレミス環境で LLM を運用する [製造業・金融系の自社 LLM 構築チーム] は、高価な GPU リソースを増強する前に、AutoRound を用いた 4bit 以下の量子化で既存サーバーの推論スループットを 2 倍以上に高める設計が現実的になる。