🛠Tools🔥🔥

1.58-bit LLM のネイティブ学習を Ascend NPU で実現──BitCPM-CANN が学習効率とメモリ消費を大幅改善

Ternary ({-1, 0, 1}) 重みを用いる BitNet b1.58 理論を Huawei Ascend NPU (CANN) 上でネイティブ実装。学習コストと推論メモリを削減。(原題: BitCPM-CANN: Native 1.58-Bit Large Language Model Training on Ascend NPU)

リリース: 2025-01-24 · 読了 3
何が起きた
  • BitNet b1.58 理論に基づき、重みを {-1, 0, 1} の 3 値(1.58ビット相当)に制約した LLM のネイティブ学習をサポート。

  • Huawei の Ascend NPU 向け計算アーキテクチャ CANN (Compute Architecture for Neural Networks) に最適化されたカスタム演算子を実装。

  • 推論時の行列乗算 (MatMul) を整数加算に置き換えることで、計算コストとエネルギー消費を劇的に削減する設計。

  • OpenBMB の CPM (Chinese Pretrained Models) フレームワークを継承し、大規模な 1.58-bit モデルの事前学習・追加学習が可能。

なぜ重要
  • NVIDIA GPU 以外のハードウェア(Ascend NPU)で、次世代の極低ビット量子化モデルを「ゼロから学習」するための実用的な基盤が整った。

  • 1.58-bit モデルは推論時の TCO を劇的に下げる鍵であり、学習段階からこの制約を課すことで、事後量子化による精度劣化問題を回避できる。

  • 特定のハードウェア(CANN)に最適化されたネイティブ実装により、エミュレーションによるオーバーヘッドなしに 3 値重みの恩恵を享受できる。

👁️ 開発者

Ascend NPU 環境を持つ開発者は、BitCPM-CANN を活用することで、量子化による精度低下を最小限に抑えた 1.58-bit モデルを自前データで構築できる。NVIDIA 依存からの脱却と推論コストの極小化を両立させたいプロジェクトにおいて、最優先で検証すべき実装である。

🇯🇵 日本

国内固有の追加文脈は限定的(汎用的に有用)。ただし、国内で Ascend NPU を採用する計算基盤やエッジデバイス向けのモデル開発において、有力な選択肢となる。