📜Papers🔥🔥

動画 VLM の長尺推論を効率化──質問との関連度に基づく混合精度量子化で KV Cache を削減

動画を window 単位で FP16/INT4/INT2 に量子化。メモリ配置の最適化により精度を維持しつつ 21.6GB 規模のキャッシュ肥大化を抑制。(原題: WindowQuant: Mixed-Precision KV Cache Quantization based on Window-Level Similarity for VLMs Inference Optimization)

リリース: 2026-05-04 · 読了 4
何が起きた
  • LLaVA-OneVision-0.5B で 30 秒の動画を処理する際、visual token 由来の KV Cache が約 21.6GB に達するメモリ肥大化問題を解決。

  • 動画を 32 token 単位の window に分割し、テキスト質問との Cosine 類似度に基づいて FP16、INT4、INT2 の混合精度を動的に割り当て。

  • 最初の window は常に FP16 で保持。さらに同一精度の window を物理メモリ上で連続配置することで、GPU の SIMD 演算効率を向上させる設計を採用。

  • LLaVA-OneVision や InternVL2 等で評価。低関連 window の量子化によりノイズが抑制され、精度が維持または向上するケースを確認。

なぜ重要
  • 長尺動画 VLM の推論コストにおいて KV Cache の肥大化は最大のボトルネック。本手法を知らずに一律の量子化を行うと、重要な視覚情報の欠落や、メモリ不足によるバッチサイズの制限に直面し続けることになる。

  • 「質問に無関係なシーンは低精度で良い」という設計思想は、動画 RAG や長時間監視映像の解析タスクにおいて、コストと精度のトレードオフを劇的に改善する。

👁️ 開発者

動画解析 AI をプロダクション導入するエンジニアは、本論文のメモリ配置最適化(Memory Layout)の設計を参考にすべき。単なるビット幅削減だけでなく、GPU のキャッシュラインを意識した配置がスループット向上の鍵となる。

🇯🇵 日本

国内固有の追加文脈は限定的(汎用的に有用)。


著者
Wei Tao · Huazhong University of Science and Technology
Xiaoyang Qu · Ping An Property & Casualty Insurance Company of China
Jianzong Wang · Ping An Federal Learning Institute
📊 Benchmark
MetricScoreΔ
KV Cache Memory (LLaVA-OneVision-0.5B, 30s video)21.6