Posts tagged with "VLM"

2025-08-15

New

本論文は、視覚言語モデル(VLM)の計算コストと性能のトレードオフを解決する新しいパラダイム「VisionThink」を提案します。低解像度画像でまず処理を行い、必要に応じてモデル自身が判断して高解像度画像を要求するこの手法は、強化学習を用いて実現されます。特に、OCRのような高精細な情報が必要なタスクでは性能を維持しつつ、一般的なタスクでは計算量を大幅に削減することに成功しました。