動画 VLM の長尺推論を効率化──質問との関連度に基づく混合精度量子化で KV Cache を削減

📜Papers🔥🔥

動画 VLM の長尺推論を効率化──質問との関連度に基づく混合精度量子化で KV Cache を削減

動画を window 単位で FP16/INT4/INT2 に量子化。メモリ配置の最適化により精度を維持しつつ 21.6GB 規模のキャッシュ肥大化を抑制。（原題: WindowQuant: Mixed-Precision KV Cache Quantization based on Window-Level Similarity for VLMs Inference Optimization）

リリース: 2026-05-04 · 読了 4 分

何が起きた

LLaVA-OneVision-0.5B で 30 秒の動画を処理する際、visual token 由来の KV Cache が約 21.6GB に達するメモリ肥大化問題を解決。
動画を 32 token 単位の window に分割し、テキスト質問との Cosine 類似度に基づいて FP16、INT4、INT2 の混合精度を動的に割り当て。
最初の window は常に FP16 で保持。さらに同一精度の window を物理メモリ上で連続配置することで、GPU の SIMD 演算効率を向上させる設計を採用。
LLaVA-OneVision や InternVL2 等で評価。低関連 window の量子化によりノイズが抑制され、精度が維持または向上するケースを確認。

なぜ重要

長尺動画 VLM の推論コストにおいて KV Cache の肥大化は最大のボトルネック。本手法を知らずに一律の量子化を行うと、重要な視覚情報の欠落や、メモリ不足によるバッチサイズの制限に直面し続けることになる。
「質問に無関係なシーンは低精度で良い」という設計思想は、動画 RAG や長時間監視映像の解析タスクにおいて、コストと精度のトレードオフを劇的に改善する。

👁️ 開発者

動画解析 AI をプロダクション導入するエンジニアは、本論文のメモリ配置最適化（Memory Layout）の設計を参考にすべき。単なるビット幅削減だけでなく、GPU のキャッシュラインを意識した配置がスループット向上の鍵となる。

🇯🇵 日本

国内固有の追加文脈は限定的（汎用的に有用）。

T1arXiv 論文 (2026-05-04 公開)

T3Zenn 記事 (2026-05-10 公開)

著者

Wei Tao · Huazhong University of Science and Technology

Xiaoyang Qu · Ping An Property & Casualty Insurance Company of China

Jianzong Wang · Ping An Federal Learning Institute

📊 Benchmark

Metric	Score	Δ
KV Cache Memory (LLaVA-OneVision-0.5B, 30s video)	21.6

📄 arXiv 2605.02262

← 日別ページに戻るカテゴリ一覧 (papers)