🧠Research🔥🔥

LLM アーキテクチャの最新動向──KV Sharing や mHC による推論効率の極大化

Sebastian Raschka 氏が、DeepSeek や Llama 3.1 に見る KV キャッシュ圧縮と Attention 構造の最適化手法を技術的に整理。

リリース: 2024-08-20 · 読了 10
何が起きた
  • DeepSeek-V2/V3 で採用された Multi-Head Latent Attention (MLA) は、KV キャッシュを従来の 1/4 以下に圧縮し、メモリ帯域のボトルネックを解消した。

  • Multi-Head Composite (mHC) は、各 Attention ヘッドに「局所参照」「大域参照」「KV 共有」などの異なる役割を割り当てることで、パラメータ効率を向上させる。

  • Llama 3.1 等で標準化した Grouped-Query Attention (GQA) を超え、層を跨いで KV を再利用する Cross-Layer Attention (CLA) が新たな効率化の焦点となっている。

  • 推論時のスループットは、計算能力(FLOPs)よりもメモリ帯域(Memory Bandwidth)に依存しており、KV キャッシュ削減が直接的なコストダウンに直結する。

なぜ重要
  • 100k トークン超の長文脈 RAG を運用する場合、KV キャッシュのメモリ占有が GPU 1 枚あたりの同時リクエスト数を制限するため、MLA 等の採用が経済的合理性の境界線になる。

  • モデルの巨大化が Scaling Law だけでなく、Attention 構造の「密度」と「再利用性」を最適化するフェーズに移行したことを示している。

👁️ 開発者

vLLM や TensorRT-LLM を用いて OSS モデルを自前ホストするエンジニアは、DeepSeek 系列の MLA 構成を最適化することで、同一ハードウェアで Llama 3 比 2 倍以上のスループットを達成できる。

🇯🇵 日本

国内で大規模 RAG を商用展開する SaaS 開発チームは、標準的な Transformer 構成よりも、これら最新の効率化アーキテクチャを採用したモデルを優先的に検証することで、推論原価を 30% 以上削減する設計が可能になる。