Jumtra Blog

最新記事

最新の投稿をチェックしてください。

2025-08-15

New

本論文は、視覚言語モデル（VLM）の計算コストと性能のトレードオフを解決する新しいパラダイム「VisionThink」を提案します。低解像度画像でまず処理を行い、必要に応じてモデル自身が判断して高解像度画像を要求するこの手法は、強化学習を用いて実現されます。特に、OCRのような高精細な情報が必要なタスクでは性能を維持しつつ、一般的なタスクでは計算量を大幅に削減することに成功しました。

VLM

強化学習

モデル効率化

2025-08-13

New

本論文は、衛星画像などのリモートセンシングデータを用いた物体検出タスクにおいて、近年注目を集めるTransformerモデルと、従来主流であったCNNモデルの性能を大規模かつ体系的に比較・分析した研究です。3つの異なる特性を持つデータセット上で11種類のモデルを評価し、TransformerがCNNを上回る性能を発揮する可能性と、その際の学習コストとのトレードオフを明らかにしました。

リモートセンシング

物体検出

Transformer

深層学習は皮膚の組織画像から人種を予測できるか？ AIの公平性に対する新たな警鐘

2025-08-13

New

本研究は、深層学習モデルが皮膚の組織画像から患者の自己申告人種を予測できるかを検証し、AIが意図せず学習する可能性のある人口統計学的バイアスについて調査したものです。アテンション分析により、モデルが『表皮』などの特定の組織構造を手がかり（ショートカット）に人種を予測していることを明らかにしました。この結果は、医療AIを公平に社会実装するためのデータ管理とバイアス緩和の重要性を示唆しています。

AIの公平性

計算病理学

深層学習

Document Haystack: 長い文脈におけるマルチモーダル文書理解のためのVision LLMベンチマーク

2025-08-13

New

本論文では、最大200ページに及ぶ長い文書から特定の情報を探し出す能力を測定する新しいベンチマーク「Document Haystack」を提案します。このベンチマークは、文書内に意図的に埋め込まれたテキスト情報や画像情報（「針」）を、Vision Language Model（VLM）がどれだけ正確に見つけ出せるかを評価します。実験の結果、現在のVLMはテキストのみの文書では高い性能を発揮するものの、画像化された文書や、テキストと画像が混在する情報では性能が大幅に低下することが明らかになりました。これは、VLMの長文・マルチモーダル文書理解能力における今後の研究課題を示唆しています。

Vision Langu...

Benchmark

フレームの先を見る：生の時系列ビデオとマルチモーダルな手がかりによるゼロショット歩行者意図予測

2025-08-13

New

本論文は、GoogleのGemini 2.5 Proを活用し、追加学習なしで歩行者の横断意図を予測するゼロショット手法「BF-PIP」を提案します。従来のフレームベースの手法とは異なり、短い連続ビデオと自車速度などのメタデータを直接利用することで、73%という高い精度を達成し、コンテキスト理解に基づく強固な意図予測の可能性を示しました。

自動運転

マルチモーダルLLM

ゼロショット学習

最新記事

おすすめ記事