2026年5月14日 (木)

11件 · 36分
今日の主役は、1.02兆パラメータという巨大なOSSモデルがAPI経済に突きつけた損益分岐点の再定義だ。MiMo-V2.5-Proの公開は、推論コストを自社ホスティングで賄うべきか、あるいは既存のAPIを利用すべきかという境界線を、性能対単価の観点から完全に書き換えた。これにModotteが公開した200万件の思考プロセスデータセットが加わることで、特定のタスクに特化した軽量なファインチューニングの実行可能性が一段と高まったと見ていい。周辺ではNotionがAIエージェント開発基盤を公開しており、外部データベースとの同期やカスタムコード実行をUI上で完結させる動きが加速している。視覚言語モデルの信頼性評価に関する論文もAUROC 0.95で正誤予測を可能にするなど、開発の現場で「何を使うか」の選定基準がよりシビアになる週として、各ツールの仕様を再確認しておきたい。
Since yesterday
New 11
Ongoing 0
Ended 12
🔥🔥2026-05-05

視覚言語モデルの信頼性はアテンションでは測れない──隠れ状態の幾何構造が正誤を AUROC 0.95 で予測

3つのVLMを解析し、アテンションの鋭さと信頼性の相関がほぼゼロであることを解明。隠れ状態の線形プローブによる高精度な正誤予測を提案。(原題: Where Reliability Lives in Vision-Language Models: A Mechanistic Study of Attention, Hidden States, and Causal Circuits)
一部カテゴリが未達(11 件)