Posts in category "論文"

2025-08-15

New

本論文は、視覚言語モデル(VLM)の計算コストと性能のトレードオフを解決する新しいパラダイム「VisionThink」を提案します。低解像度画像でまず処理を行い、必要に応じてモデル自身が判断して高解像度画像を要求するこの手法は、強化学習を用いて実現されます。特に、OCRのような高精細な情報が必要なタスクでは性能を維持しつつ、一般的なタスクでは計算量を大幅に削減することに成功しました。

2025-08-13

New

本論文は、衛星画像などのリモートセンシングデータを用いた物体検出タスクにおいて、近年注目を集めるTransformerモデルと、従来主流であったCNNモデルの性能を大規模かつ体系的に比較・分析した研究です。3つの異なる特性を持つデータセット上で11種類のモデルを評価し、TransformerがCNNを上回る性能を発揮する可能性と、その際の学習コストとのトレードオフを明らかにしました。

2025-08-13

New

本研究は、深層学習モデルが皮膚の組織画像から患者の自己申告人種を予測できるかを検証し、AIが意図せず学習する可能性のある人口統計学的バイアスについて調査したものです。アテンション分析により、モデルが『表皮』などの特定の組織構造を手がかり(ショートカット)に人種を予測していることを明らかにしました。この結果は、医療AIを公平に社会実装するためのデータ管理とバイアス緩和の重要性を示唆しています。

2025-08-13

New

本論文では、最大200ページに及ぶ長い文書から特定の情報を探し出す能力を測定する新しいベンチマーク「Document Haystack」を提案します。このベンチマークは、文書内に意図的に埋め込まれたテキスト情報や画像情報(「針」)を、Vision Language Model(VLM)がどれだけ正確に見つけ出せるかを評価します。実験の結果、現在のVLMはテキストのみの文書では高い性能を発揮するものの、画像化された文書や、テキストと画像が混在する情報では性能が大幅に低下することが明らかになりました。これは、VLMの長文・マルチモーダル文書理解能力における今後の研究課題を示唆しています。

2025-08-13

New

本論文は、GoogleのGemini 2.5 Proを活用し、追加学習なしで歩行者の横断意図を予測するゼロショット手法「BF-PIP」を提案します。従来のフレームベースの手法とは異なり、短い連続ビデオと自車速度などのメタデータを直接利用することで、73%という高い精度を達成し、コンテキスト理解に基づく強固な意図予測の可能性を示しました。

2025-08-08

本論文は、大規模言語モデル(LLM)における長文コンテキスト処理の効率性と性能向上を目的とし、クエリに基づいて動的に情報を補完する「クエリガイド型アクティベーションリフィル(ACRE)」手法を提案する。二層KVキャッシュとクエリガイド型リフィルを組み合わせることで、ネイティブのコンテキストウィンドウを超える長文処理を可能にし、ロングコンテキスト情報検索の実用性を大きく高めた。

2025-08-08

本論文では、コードレビューにおける修正に繋がる望ましいレビューコメント(DRC)を自動的に識別する新手法「Desiview」を提案します。Desiviewにより高品質なデータセットを構築し、LLaMAモデルをファインチューニングおよびアラインメントすることで、DRC生成能力が大幅に向上したことを実証しました。本手法はコードレビュー自動化やソフトウェア開発支援に大きく貢献することが期待されます。

2025-08-08

本稿では、従来の推薦システムと大規模言語モデル(LLM)を組み合わせた ハイブリッドTop-k推薦システムを提案する。ユーザーを「アクティブユーザー」と 「弱ユーザー」に分類し、弱ユーザーにはLLMを用いて推薦精度の向上と 推薦の公平性確保を目指す。同時に、LLMの計算コストを抑制し実用化可能な 推薦モデルを実現した点が特徴である。