最新記事

最新の投稿をチェックしてください。

2025-08-15

New

本論文は、視覚言語モデル(VLM)の計算コストと性能のトレードオフを解決する新しいパラダイム「VisionThink」を提案します。低解像度画像でまず処理を行い、必要に応じてモデル自身が判断して高解像度画像を要求するこの手法は、強化学習を用いて実現されます。特に、OCRのような高精細な情報が必要なタスクでは性能を維持しつつ、一般的なタスクでは計算量を大幅に削減することに成功しました。

2025-08-13

New

本論文は、衛星画像などのリモートセンシングデータを用いた物体検出タスクにおいて、近年注目を集めるTransformerモデルと、従来主流であったCNNモデルの性能を大規模かつ体系的に比較・分析した研究です。3つの異なる特性を持つデータセット上で11種類のモデルを評価し、TransformerがCNNを上回る性能を発揮する可能性と、その際の学習コストとのトレードオフを明らかにしました。

2025-08-13

New

本研究は、深層学習モデルが皮膚の組織画像から患者の自己申告人種を予測できるかを検証し、AIが意図せず学習する可能性のある人口統計学的バイアスについて調査したものです。アテンション分析により、モデルが『表皮』などの特定の組織構造を手がかり(ショートカット)に人種を予測していることを明らかにしました。この結果は、医療AIを公平に社会実装するためのデータ管理とバイアス緩和の重要性を示唆しています。

2025-08-13

New

本論文では、最大200ページに及ぶ長い文書から特定の情報を探し出す能力を測定する新しいベンチマーク「Document Haystack」を提案します。このベンチマークは、文書内に意図的に埋め込まれたテキスト情報や画像情報(「針」)を、Vision Language Model(VLM)がどれだけ正確に見つけ出せるかを評価します。実験の結果、現在のVLMはテキストのみの文書では高い性能を発揮するものの、画像化された文書や、テキストと画像が混在する情報では性能が大幅に低下することが明らかになりました。これは、VLMの長文・マルチモーダル文書理解能力における今後の研究課題を示唆しています。

2025-08-13

New

本論文は、GoogleのGemini 2.5 Proを活用し、追加学習なしで歩行者の横断意図を予測するゼロショット手法「BF-PIP」を提案します。従来のフレームベースの手法とは異なり、短い連続ビデオと自車速度などのメタデータを直接利用することで、73%という高い精度を達成し、コンテキスト理解に基づく強固な意図予測の可能性を示しました。

おすすめ記事

タグに基づいて人気のある記事を見つけましょう。

2025-08-13

New

本論文は、衛星画像などのリモートセンシングデータを用いた物体検出タスクにおいて、近年注目を集めるTransformerモデルと、従来主流であったCNNモデルの性能を大規模かつ体系的に比較・分析した研究です。3つの異なる特性を持つデータセット上で11種類のモデルを評価し、TransformerがCNNを上回る性能を発揮する可能性と、その際の学習コストとのトレードオフを明らかにしました。

2025-08-15

New

本論文は、視覚言語モデル(VLM)の計算コストと性能のトレードオフを解決する新しいパラダイム「VisionThink」を提案します。低解像度画像でまず処理を行い、必要に応じてモデル自身が判断して高解像度画像を要求するこの手法は、強化学習を用いて実現されます。特に、OCRのような高精細な情報が必要なタスクでは性能を維持しつつ、一般的なタスクでは計算量を大幅に削減することに成功しました。

2025-08-13

New

本研究は、深層学習モデルが皮膚の組織画像から患者の自己申告人種を予測できるかを検証し、AIが意図せず学習する可能性のある人口統計学的バイアスについて調査したものです。アテンション分析により、モデルが『表皮』などの特定の組織構造を手がかり(ショートカット)に人種を予測していることを明らかにしました。この結果は、医療AIを公平に社会実装するためのデータ管理とバイアス緩和の重要性を示唆しています。

2025-08-13

New

本論文では、最大200ページに及ぶ長い文書から特定の情報を探し出す能力を測定する新しいベンチマーク「Document Haystack」を提案します。このベンチマークは、文書内に意図的に埋め込まれたテキスト情報や画像情報(「針」)を、Vision Language Model(VLM)がどれだけ正確に見つけ出せるかを評価します。実験の結果、現在のVLMはテキストのみの文書では高い性能を発揮するものの、画像化された文書や、テキストと画像が混在する情報では性能が大幅に低下することが明らかになりました。これは、VLMの長文・マルチモーダル文書理解能力における今後の研究課題を示唆しています。

2025-08-13

New

本論文は、GoogleのGemini 2.5 Proを活用し、追加学習なしで歩行者の横断意図を予測するゼロショット手法「BF-PIP」を提案します。従来のフレームベースの手法とは異なり、短い連続ビデオと自車速度などのメタデータを直接利用することで、73%という高い精度を達成し、コンテキスト理解に基づく強固な意図予測の可能性を示しました。

2025-08-12

New

Anything(旧Create)は自然言語プロンプトからWeb/モバイル向けアプリを自動生成するAIプラットフォーム。実際の仕様例を入れて家庭向け生活管理アプリを“試作”する手順と評価をまとめました。

2025-08-11

最新のPythonツールとAI自動化を融合し、効率的かつ高品質な開発を実現するテンプレートを紹介。 依存関係管理、コード品質保証、AI連携ワークフローで開発を加速します。

2025-08-10

LangExtractを使って童話『赤ずきんちゃん』から登場人物や感情を抽出する実験記事。

2025-08-09

Rorkは自然言語からネイティブなモバイルアプリを生成し、App Store/Google PlayへのビルドとデプロイをサポートするAIツールです。本記事では、家庭向け生活管理アプリの要件を実際にRorkに入力し、「生成→動作確認→ストア準備」までを試した流れと所感をまとめます。