2026-06-25 · 7 topics
Google DeepMind、Gemini 3.5 Flashに「Computer Use」機能をネイティブ統合
🔥🔥🔥軽量・高速なGemini 3.5 Flashに画面操作機能を直接組み込み、プロンプトインジェクション対策や企業向けセーフガードと併せてAPI提供を開始した。
Google、Gemini 3.5 Flash に Computer Use を標準搭載──画面操作で過去最高性能を達成
🔥🔥🔥専用モデルだった画面操作機能を主力軽量モデルにネイティブ統合し、開発者が追加コストを抑えつつブラウザやアプリを操作するエージェントを構築可能にした。
LLMのインコンテキスト学習はデータの順序依存性があっても期待値としてベイズ的であると実証
🔥🔥逐次予測の対数損失分解により順序依存の影響を定式化。Qwen2.5が最尤推定よりベイズ事後予測に極めて近いことを実証。(原題: LLMs are Bayesian, In Expectation, Not in Realization)
Alibaba、言語ワールドモデル評価ベンチマーク AgentWorldBench を公開──5次元で予測精度を検証
🔥🔥エージェントが行動した後の環境変化を予測する言語ワールドモデルの性能を、実環境の実行ログを正解データとしてFormatやFactualityなど5つの評価指標で測定できる。
Hugging Faceら、遠隔音声認識ベンチマーク FFASR Leaderboard を公開──実環境の音響歪みをシミュレート
🔥🔥Treble社の高精度3D音響シミュレーターを活用し、残響やノイズ、話者の移動に伴う音響変化がASRモデルの認識精度(WER)に与える影響を公平に評価する。
Aignostics、がん微小環境データセット「OpenTME」を公開──TCGA画像から空間特徴量を抽出
🔥🔥病理画像(H&E染色)からAI基礎モデルを用いて細胞・組織の空間配置を定量化したCSVデータを、学術研究者向けに無償提供する。
Microsoftら、ゲノム再解析ツール Talos を公開──5000人の未診断患者から5.1%の新規診断を自動検出
🔥🔥1100人の検証で診断特定率90%を維持しつつ、専門医が確認すべき候補変異数を患者1人あたり1.3件に抑制し、人手不足の臨床現場における継続的なゲノム再解析の自動化・実用化を可能にした。