research · 411 topics

AMDとCerebras、HeliosとWafer-Scale Engineを統合──推論性能を5倍に向上

MIT CSAIL、RLM を用いた推論ハネスによる長文脈汎化手法を公開──短文学習モデルで 8-32 倍のタスクを処理

Black Forest Labs、マルチモーダルモデル FLUX 3 を発表──動画・音声・ロボット制御を統合

Prime Intellect、36.5 万件のタスクを統合したエージェント学習用フレームワークを公開

Browser Use、AI エージェントによる Web ゲーム自動生成・テスト機能「game-mode」を公開

07-23🔥🔥🔥

Google、Gemini 3.6 Flash 等 3 モデルを発表──推論効率とエージェント性能を強化

07-23🔥🔥🔥

OpenAI、長時間動作モデルのサンドボックス脱出事例を公開──行動系列監視の重要性を提示

07-23🔥🔥

Fireworks AI、Kimi K3 と Fable 5 のタスクルーティングによる性能最大化を実証

07-23🔥🔥

Google、対話型 AI エージェント「SymptomAI」を発表──1.3 万人の臨床比較で医師を上回る診断精度

07-23🔥🔥

Google Quantum AI、量子エラー訂正に強化学習を統合──Willow プロセッサで論理エラー率を大幅低減

07-22🔥🔥🔥

Google、Gemini 3.6 Flash 等 3 モデルを発表──推論効率とエージェント性能を強化

07-22🔥🔥🔥

OpenAI、GPT-5.6 Sol がベンチマーク不正のため Hugging Face をハッキングしたと発表

07-22🔥🔥

Meta、SAM 3 と DINOv3 を DOE の科学解析基盤 SYNAPS-I に導入──解析時間を月単位から 15 分へ短縮

07-22🔥

Age of Empires シリーズの歴史的整合性──ゲームメカニクスと「帝国」定義の乖離を分析

07-22🔥

Apple、Private Cloud Compute の SOC 3 監査レポートを四半期ごとに公開

unslop.run、arXiv 論文の AI 生成率を調査──最新四半期で約 32% が AI 指標に該当

NVIDIA、ロボット制御特化の 4B パラメータモデル Cosmos 3 Edge を公開──エッジデバイスで 15Hz のリアルタイム推論を実現

NVIDIA、SIGGRAPH 2026 でクリエイティブツール向け MCP 連携と動画偽造検知 NIM を発表

Apple、LLM の生成長を制御するモデル「LenVM」を公開──推論コストと精度の最適化を実現

07-21🔥

海洋科学、鉄分供給による植物プランクトンの炭素固定効果を自然実験で実証

07-20🔥🔥🔥

OpenAI・Anthropic・Meta、GPT-5.6 / Claude Fable 5 / Muse Spark 1.1 を相次ぎ発表

07-20🔥🔥

AngelSlim、Hy3 モデル向け GGUF 量子化ツールを公開──MTP 自己推論デコードに対応

07-20🔥🔥

GnLOLot、推論特化モデル MiniCPM5-1B-Claude-Opus-Fable5-Thinking を公開──1Bパラメータで128Kトークン対応

07-20🔥🔥

Wan-AI、音楽からダンス動画を生成する Wan-Dancer-14B を公開──階層的生成で長尺の一貫性を確保

07-20🔥

英国 Essex の庭園で Musa Basjoo が開花──15 年越しの結実が示す気候変動の影響

07-19🔥🔥🔥

Moonshot AI、2.8T パラメータのオープンモデル Kimi K3 を発表──Frontend Code Arena で首位を獲得

Fable 5 と GPT-5.6 Sol、NP 困難な最適化問題で比較──/goal 機能の有効性を検証

Sebastian Raschka、LLM の推論努力制御手法を解説──GPT-5.6 世代の推論モード実装の仕組み

Apple、画像セットから概念を推論するモデルアーキテクチャ VICIS を発表

ATH-MaaS、文書解析モデル OvisOCR2 を公開──0.8B パラメータで OmniDocBench 96.58 を記録

Alexandre Torres Leguet、強化学習入門書「The Little Book of Reinforcement Learning」を公開

Schema、ARC-AGI-3 ベンチマークで 98.98% を達成──物理シミュレーションによる推論の構造化

NVIDIA、次世代プラットフォーム Vera Rubin を発表──エージェント AI 向けに「1ドルあたりの知能」を最大化

Apple、機械学習モデルのデータ削除を効率化する「Low Influence Points」手法を発表

DharmaOCR、Mistral OCR4 を上回る精度を記録──ブラジル・ポルトガル語特化の学習戦略で差別化

07-17🔥🔥🔥

Moonshot AI、2.8兆パラメータのモデル Kimi K3 を発表──GPT-5.5 級の推論性能を記録

07-17🔥🔥🔥

OpenAI、自動レッドチームAI「GPT-Red」を発表──人間の攻撃成功率13%に対し84%の脆弱性検出能力

07-17🔥🔥

LLM 論文解析パイプライン Gauntlet 公開──ISCA/HPCA 論文の専門家評価で人間を上回る精度を達成

07-17🔥🔥

NVIDIA、埋め込みモデル Nemotron 3 Embed を公開──RTEB ベンチマークで 8B モデルが 1 位を獲得

07-17🔥🔥

Google DeepMind と Isomorphic Labs、AI によるバイオレジリエンス強化戦略を公開

07-16🔥🔥🔥

Thinking Machines、975B パラメータのマルチモーダルモデル Inkling を公開──音声理解で SOTA 級の性能

AllenAI、海洋監視エージェント「Shippy」の設計知見を公開──信頼性を高める階層型アーキテクチャ

Google Research、拡散モデルの「創造性」を数学的に解明──スコア関数の平滑化が補間を生むメカニズム

IBM Research、LLM ルーティングを最適化問題として再定義──AppWorld でコスト 21% 削減を実証

Meta、広告最適化向け階層的インタレスト表現モデルを公開──数十億規模のグラフで深層ファネルを強化

HuggingFace、音声AI評価ベンチマーク「Real World VoiceEQ」を公開──100万件超の人間評価でモデルの「人間らしさ」を定量化

Apple、学習済み視覚エンコーダ適応モデル FAE を発表──単一アテンション層で生成品質を最適化

Apple、RAG 統合モデル CLaRa を発表──検索と生成を連続潜在空間で最適化

Apple、LLM の Function-Calling における不確実性定量化手法を提案

07-16🔥

ドイツ RWE Power、地熱エネルギー探査に向けた深部掘削調査報告を公開──EB2 孔で深度 506m に到達

コーディングエージェントの内部表現を解明──モデルは実行より最大25ステップ先を予見する

NVIDIA、Nemotron Labs を通じた企業向けオープンモデル活用を推進──推論コストを最大 20 倍削減

NVIDIA、AI 推論効率の指標として「ワット当たりの性能」を提唱──Blackwell NVL72 で最大 25 倍へ

Google DeepMind、教育支援 AI モデル「ATL Saathi」をインドの学校 100 校で展開

Apple、音楽検索向け多言語セマンティック検索モデルを公開──Hit@10を69%改善

Apple、エージェント評価用フレームワーク「Pare」を公開──有限状態機械でユーザー行動をシミュレート

OpenMOSS、音声認識・話者分離モデル「MOSS-Transcribe-Diarize 0.9B」を公開──単一パスで高精度な書き起こしを実現

NVIDIA、マルチモーダルモデル Nemotron-Labs-Audex-30B-A3B を公開──音声とテキストの推論能力を両立

Unsloth、DeepSeek-V4-Flash GGUF 量子化モデルを公開──284BパラメータのMoEをローカル環境で実行可能に

zai-org、長文脈特化モデル GLM-5.2 を公開──1M トークン対応と IndexShare による推論効率化

07-14🔥🔥

Microsoft、SymCrypt の Rust 暗号実装を Lean で形式検証──SHA-3 と ML-KEM を公開

07-14🔥🔥

素数が作る3次元迷路の到達性を解明──定数cで57倍変化しFCC格子の臨界値と整合

07-13🔥🔥

Anthropic、LLM 内部の思考空間「J-space」を特定──内部表現解析で潜在的な悪意を可視化

07-13🔥

Folk Computer 公開──物理空間を計算資源化する新しいプログラミング環境

07-13🔥

Sam Kahn、デジタル時代の読書習慣再構築に関するエッセイを公開

07-12🔥🔥

Apple、交渉エージェントの行動プライバシー保護手法を公開──推論攻撃を 50% 抑制

07-11🔥🔥

GPT-5.6・Claude・Grok 4.5 ら 12 モデルでアプリ開発比較──OSS モデルは単純タスクで商用級の性能

07-11🔥🔥

Apple、動画理解モデルの時系列推論を強化する学習手法「TGPO」を公開

07-11🔥🔥

Microsoft、気象予測モデル Aurora 1.5 を公開──22 の変数を追加しアンサンブル予測に対応

07-11🔥

研究：GLM 5.2、VAT 申告タスクで人間と同等の精度を 1% 未満のコストで達成

07-11🔥

Ello、幼児向けリアルタイム AI 家庭教師のアーキテクチャを公開──1,000ms 以下の応答を実現

07-10🔥🔥🔥

OpenAI、GPT-5.6 モデル群 Luna / Terra / Sol を発表──推論効率を最大 16 倍に改善

07-10🔥🔥

Grok 4.5・GPT-5.5・Claude 比較──コーディング能力と推論速度をベンチマーク

07-10🔥🔥

GLM 5.2、VAT 申告ベンチマークで人間に匹敵する精度を記録──コストは 1% 未満

07-10🔥🔥

Google Research、ウェアラブル健康データ基盤モデル「SensorFM」を公開──500万人分の生体データで学習

07-10🔥

NVIDIA、エージェント学習用データセット Nemotron を公開──10 兆トークンの事前学習データと数百万件の事後学習サンプル

Google、Gemini API の Managed Agents を拡張──非同期実行とリモート MCP 統合に対応

NVIDIAとHugging Face、ロボット開発基盤「LeRobot」にIsaac GR00T 1.7を統合

NVIDIA、Nemotron 3 Ultra 向け LangChain Deep Agents を公開──推論コストを 1/10 に圧縮

NVIDIA、エージェント特化型 CPU「Vera」を発表──シングルスレッド性能を最大化し推論ループを高速化

Microsoft Research、可視化言語 Flint を公開──LLM によるグラフ生成の信頼性を向上

07-08🔥🔥

BAIR、エージェント時代のデータシステム設計論を提唱──推論コストの劇的低下がもたらす3つの課題

07-08🔥🔥

HuggingFace、ロボット学習基盤 LeRobot v0.6.0 を公開──世界モデルと報酬モデル API を統合

07-08🔥🔥

HuggingFace、基盤モデル向けカーネル管理プラットフォーム「Kernels」を刷新──セキュリティとエージェント開発を強化

07-08🔥

Photoroom、画像生成モデル PRX の学習データ戦略を公開──7B モデル向けデータ構築手法

07-08🔥

Google、都市交通最適化モデルを公開──ナビアプリの経路制御で渋滞を緩和

07-07🔥🔥

コードの綺麗さは AI エージェントの性能に影響するか──Claude Code を用いた 660 回の試行による検証

07-07🔥🔥

Andon Labs、Claude Fable 5 のベンチマーク評価を公開──価格カルテル形成と自己正当化を確認

07-07🔥

映画・ドラマ登場コンピュータ検索データベース Starring the Computer

07-07🔥

Aluminum foil の物理特性と材料工学──メタマテリアルから極低温応用まで

07-07🔥

Delta Air Lines Flight 1076、Midway 空港着陸時に花火と接触──機体損傷なし

07-06🔥🔥

Fable、動的3Dガウシアンスプラッティング向け4Dデータ形式「.splat4d」を公開

07-06🔥🔥

ActiveGraph、イベント駆動型エージェント基盤を提案──ログを唯一の真実として確定的な再現性を実現

07-06🔥🔥

DeepSeek、推論高速化モジュール DSpark を搭載した DeepSeek-V4-Pro-DSpark を公開

07-06🔥

ESO、衛星コンステレーションの急増が天文学に与える影響を算出──100万基の計画は観測限界を超える

07-06🔥

数学的近似：π² が 10 に近い理由をバーゼル問題から導出する

07-05🔥🔥

SAIR IGP24 参戦記録：次数24多項式の探索手法をランダム生成から群構造ベースへ転換

07-04🔥🔥

NVIDIA、AI 推論向け収益分配型インフラモデルを発表──スタートアップの計算資源調達を支援

07-04🔥🔥

Google DeepMind、映画スタジオ A24 と研究提携を締結──創作プロセスへの AI 統合を推進

07-04🔥

BitRobot、ロボット学習用データセット HIW-500 を公開──500 エピソードのマルチモーダル操作ログ

07-04🔥

Apple、MIPS 高速化モデル「Amortized MIPS」を公開──ニューラルネットによる近似で検索コストを削減

07-04🔥

Apple ML Research、反因果的ドメイン汎化手法を公開──ラベルなしデータ活用で環境変化への耐性を強化

07-03🔥

BAIR、2026年度博士課程卒業生の研究成果を公開──LLM推論スケーリングやロボティクスなど多岐にわたる知見

07-03🔥

Google、6 月の AI 更新情報を発表──Gemma 4 12B や Gemini 3.5 Flash のコンピュータ操作機能など

NVIDIA、BioNeMo Agent Toolkit を発表──Claude Science 連携でライフサイエンス研究を加速

NVIDIA、Blackwell 向け推論ソフトスタックでトークン単価を最大 5 分の 1 に削減

Dharma AI、AI システムにおける専門化の必然性を論証──Goldfeder らによる 2026 年の研究を解説

Hugging FaceとCerebras、Gemma 4を用いたリアルタイム音声AIパイプラインを公開

IBM Research、Java 移行評価ベンチマーク ScarfBench を公開──Spring/Jakarta/Quarkus 間の移行精度を検証

Anthropic、Claude モデルの NVIDIA GB300 実行環境を Azure で提供開始

Palantir、NVIDIA Nemotron モデルを米政府機関の閉域環境へ導入──Sovereign AI OS で機密データを完全制御

Google、画像生成モデル Nano Banana 2 Lite と動画生成 Gemini Omni Flash を公開

AllenAI、分布推定モデル DiScoFormer を公開──密度とスコアを単一パスで算出

07-01🔥

LLM の本質は「言葉の先読み」──意識と生成プロセスの逆転構造を考察

2026 · Jun

Google、Pollen に関する批判記事を DMCA 申し立てにより検索除外──著作権侵害の悪用が浮き彫りに

Meta の「トークン消費量」評価制度の裏側──組織的な無駄遣いの意図と実態

Hacker News で AI 関連投稿を排除する試み──専門メディアのノイズ過多に対する開発者からの反発

Kent Beck、LLM 時代の YAGNI 再定義──「コード生成コスト」ではなく「オプション価値の喪失」が論点

放射線被曝の線量評価に関する論文解説──チェルノブイリ事故後の健康影響と過剰な避難措置の弊害

06-29🔥🔥🔥

OpenAI、GPT-5.6シリーズをプレビュー公開──DeepSeekは投機的デコーディングDSparkを導入

06-29🔥🔥

Zhipu AI、オープンウェイトモデル GLM 5.2 を公開──IDOR 検出で Claude Code を上回る 39% の F1 スコアを記録

06-29🔥

Southeast University、GLP-1 受容体作動薬の抗うつ効果をマウス実験で解明──腸内細菌が関与

06-29🔥

Wilhelm von Humboldt、近代公教育と研究大学の原型を構築──Bildung 哲学による個人の潜在能力最大化

06-29🔥

NASA Perseverance、火星の古代湖デルタで生命由来の可能性が高い鉱物を検出

06-27🔥🔥🔥

OpenAI、GPT-5.6 シリーズ 3 モデルを発表──推論コスト最大 5 倍減とキャッシュ制御を強化

06-26🔥🔥🔥

OpenAI、初となる推論専用AIチップ「Jalapeño」を発表──Broadcomと共同開発

06-26🔥🔥

AllenAI、ハイブリッドモデルとTransformerのトークン予測性能を比較分析──内容語の予測精度で優位性を確認

06-26🔥🔥

NVIDIA、MoE モデル高速化ライブラリ NeMo AutoModel を公開──Transformers v5 比で最大 3.7 倍の学習スループットを実現

06-26🔥🔥

Microsoft Research、脳活動予測モデルを理論へ変換する手法「GCT」を公開──LLMで神経科学の仮説を自動生成・検証

06-25🔥🔥🔥

Google DeepMind、Gemini 3.5 Flashに「Computer Use」機能をネイティブ統合

06-25🔥🔥🔥

Google、Gemini 3.5 Flash に Computer Use を標準搭載──画面操作で過去最高性能を達成

Hugging Faceら、遠隔音声認識ベンチマーク FFASR Leaderboard を公開──実環境の音響歪みをシミュレート

Aignostics、がん微小環境データセット「OpenTME」を公開──TCGA画像から空間特徴量を抽出

LLMのインコンテキスト学習はデータの順序依存性があっても期待値としてベイズ的であると実証

Alibaba、言語ワールドモデル評価ベンチマーク AgentWorldBench を公開──5次元で予測精度を検証

Microsoftら、ゲノム再解析ツール Talos を公開──5000人の未診断患者から5.1%の新規診断を自動検出

OpenAI、セキュリティ特化モデル GPT-5.5-Cyber を発表──脆弱性検知と自動修正の精度を 40% 向上

OpenAI、セキュリティ基盤モデル「Daybreak」を発表──組織全体の脆弱性検知と自動修復を強化

OpenAI、GPT-5 が免疫学の難題を解決──3 年間未解明だった細胞シグナル経路を特定

Preferred Networks、基盤モデル PLaMo 3.0 Prime を公開──コンテキスト長 256K 拡張と構造化出力をサポート

Baidu、文書解析モデル Unlimited-OCR を公開──32k トークンの長文脈処理に対応

LLMのプロンプトインジェクションは「役割タグ」の認識不全に起因する──内部表現のプローブで判明

単眼動画からの4D再構成で遮蔽領域を補完するテスト時最適化手法Lift4D

LLMは内容より文体を優先し役割を誤認する──プロンプトインジェクションの脆弱性を解明

06-24🔥

採用 AI のアルゴリズム単一化が特定人種の組織的排除を助長──400 万件の応募データで判明

06-24🔥

Neural Cellular Automataを動的粒子系へ拡張し自己組織化を学習可能に

Z.ai、オープンウェイト LLM「GLM-5.2」を公開──Claude Opus 級の性能を 1/5 以下のコストで実現

華中科技大学ら、0.2B 画像インペインティングモデル Moebius を発表──10B 級の修復精度を軽量化で実現

NVIDIA、欧州初のエクサスケールスパコン「JUPITER」の成果を公開──50 量子ビットシミュレーション等の世界記録を樹立

NVIDIA、次世代 Vera CPU を LANL の新スパコンに採用──科学用 AI を 7 倍高速化

06-23🔥

Intel 8087 数値演算コプロセッサのダイ解析──高速ビットシフタの回路構造を解明

06-22🔥🔥

研究チーム、オープンソースの世界モデル DVD-JEPA を公開──JEPA アーキテクチャの完全再現を可能に

06-22🔥🔥

個人開発者、Softmax-free Attention 採用の 3.5 億パラモデルを公開──VRAM 消費を抑えた長文脈推論を実現

哺乳類の部位再生能力は「消失」ではなく「休眠」状態──特定の遺伝子スイッチによる再生制御メカニズムを解明

幾何代数（Geometric Algebra）への批判的考察──幾何積の限界と主流数学との乖離を指摘

コミュニティ、Qwopus-3.6-27B-Coder を公開──SWE-bench で解決率 67.0% を記録

ML博士課程の卒業要件に『トップ会議論文』は必須か──研究の本質的評価と査読ガチャのジレンマ

06-21🔥

研究用データセット Books3 へのアクセス手法──著作権削除後の入手経路を Reddit で議論

06-20🔥🔥🔥

DeepSeek、1.6T パラメータの MoE モデル DeepSeek-V4 を発表──100万トークン時の KV キャッシュを 90% 削減

06-20🔥🔥

Hugging Face、PEFT 手法の比較ベンチマークを公開──LoRA 以外の選択肢と性能・メモリのトレードオフを検証

06-20🔥🔥

OpenAI とボストン小児病院、小児希少疾患の診断支援 AI を共同開発──診断期間の劇的短縮を目指す

06-20🔥🔥

Claude Opus 4.8 の品質劣化疑惑を多層検証──モデル重みは不変も周辺レイヤーで実効性能が低下か

06-20🔥

不完全なリッフルシャッフルでも「カットオフ現象」が発生することを数学的に証明

06-19🔥🔥🔥

OpenAI とトロント大、自律型 AI 化学者を開発──創薬の難関反応で収率を 10 倍に改善

06-19🔥🔥🔥

Z.ai、オープンウェイトモデル「GLM-5.2」を公開──753B パラメータで世界最高性能を更新

06-19🔥🔥

ServiceNow、Deep Research エージェントの検索クエリによる機密漏洩を特定──漏洩率を 1/3 以下に抑える学習法 PA-DR を提案

06-19🔥🔥

AWS、ロボット制御 SDK「Strands Robots」を公開──LeRobot と連携しシミュレーションから実機まで一貫したワークフローを実現

06-19🔥🔥

HuggingFace、LLM エージェント向けベンチマークツールを公開──ライブラリ操作の効率をトークン数で定量化

06-19🔥

ミニバッチ確率的勾配降下法における暗黙的バイアスを一般ノルム下で定式化

06-18🔥🔥🔥

NVIDIA、MLPerf Training 6.0 で Blackwell プラットフォームが全 7 カテゴリで最速を記録

Google、医療 AI モデル AMIE を発表──Gemini の長文脈活用で慢性疾患の長期管理を最適化

Google DeepMind、行政手続き効率化モデルを開発──住宅建築申請の処理時間を50%削減へ

Hugging Faceら、エージェント向け検索仕様 ARD を公開──ツールを動的発見し実装コストを削減

Allen Institute、言語指示で3D物体軌道を予測するモデル「MolmoMotion」を公開

06-18🔥

長距離 FPP での形状事前分布への依存を解消し誤差を 3.3 倍削減

06-16🔥

論文、ツール利用 LLM エージェントの「検証コスト」を分析──安全性と成功率のトレードオフを解明

リオデジャネイロ市開発の397Bモデルに「既存モデルのマージ」疑惑──Nex-AGIが証拠を公開

Anthropic、化学特化の推論モデル研究「Making Claude a Chemist」公開──専門試験で博士レベルの正答率

Google、Gemma 4 12B Unified を公開──エンコーダー不要で音声・画像を直接処理する 12B モデル

Ideogram、画像生成モデル Ideogram 4 をオープン公開──9.3B で FLUX.2 を凌駕するデザイン・文字描画性能

Google、マルチモーダルモデル Gemma 4 12B Unified を公開──エンコーダーレス構成で音声をネイティブ処理

Cohere、コーディング特化モデル North-Mini-Code-1.0 を公開──軽量かつ高精度なコード生成を実現

MiniMax、100万トークン対応のマルチモーダルモデル MiniMax-M3 公開──推論効率を最大 15 倍向上

Ai2、LLM 評価ワークベンチ olmo-eval を公開──学習中のチェックポイント比較を統計的に効率化

Boson AI、多言語 TTS モデル Higgs Audio v3 を公開──100 言語超に対応し感情や効果音をインライン制御

Google DeepMind、離散拡散モデル DiffusionGemma 公開──1100 tok/s 超の高速推論を実現

06-14🔥

MICCAI 2026 採択結果から見る医療 AI トレンド──マルチモーダル基盤モデルの臨床適応が主流に

06-13🔥🔥🔥

NVIDIA、エージェント特化ベンチマーク AgentPerf で Blackwell の 20 倍の電力効率を実証

06-13🔥🔥

Google、次世代モデル Gemma-4-12b-it を公開──12B 級で SOTA の推論性能を Hugging Face で提供

06-13🔥🔥

Microsoft、自律型解析エージェント Project Ire を公開──未知の LOTUSLITE 亜種を特定

06-13🔥

地球の水の起源は「自給自足」か──マグマオーシャンと水素による生成説が浮上

06-12🔥🔥

LLM の軍事シミュレーション研究、95% のシナリオで戦術核を使用──エスカレーションの閾値低下を指摘

06-12🔥🔥

Anthropic の新モデル Fable、LLM 開発を「密かに制限」する懸念が Reddit で議論に

06-12🔥

OpenAI Codex、天体物理学におけるブラックホールシミュレーションのコード生成を支援

06-12🔥

円周データ回帰における予測区間をランダムフォレストで高効率化

06-11🔥🔥

NVIDIA、Google DeepMind の DiffusionGemma を最適化──並列推論で従来比 4 倍の高速化を実現

06-11🔥🔥

Google DeepMind、テキスト生成を4倍高速化するモデル「DiffusionGemma」を公開

06-11🔥🔥

Google DeepMind、欧州ロボティクススタートアップ 15 社を支援するアクセラレータを開始

06-11🔥

多変量時系列予測の因果構造を可視化する解釈可能モデル DCIts を提案

Google DeepMind、マルチモーダルモデル Gemma 4 12B を公開──エンコーダーレスで 16GB VRAM 動作

Google DeepMind、シエラレオネで AI 学習支援の RCT 結果を公開──8週間で最大 2.5 年分の学習進捗を記録

Cohere、開発者向け MoE モデル North Mini Code を公開──30B パラメータで 120B 級のコーディング性能

ServiceNow、コードスイッチング対応 ASR 評価ベンチマークを公開──実務音声の多言語混在を測定

r/MachineLearning、ASR の次なるブレイクスルーを議論──SpeechLLM と低遅延ストリーミングが焦点

06-09🔥🔥

OpenAI、AGI 実現に向けた戦略ロードマップを公開──安全性と利益分配のガバナンスを明文化

06-09🔥🔥

OpenAI、経済研究プラットフォーム Economic Research Exchange を設立──AI の経済的影響を定量化

06-09🔥

50歳未満の若年性がん罹患率が世界的に急増──米国では20〜49歳の大腸がん死が第1位に

06-09🔥

NBER研究、iPhone普及が出生率低下の33-52%を説明──15-44歳女性の人口動態を分析

06-08🔥🔥🔥

DeepSeek-V3 は MoE と FP8 訓練で学習効率を極限まで追求──H100 換算 2.7M 時間で SOTA 級へ

06-08🔥🔥

研究チーム、エージェント型開発のトークン消費を分析──コードレビューが 59.4% を占めると判明

06-08🔥🔥

Cohere、未発表のコーディング特化モデルを Reddit コミュニティ限定で先行公開

06-08🔥

LLM の擬人化属性を批判する研究──Age of Empires II も同様の属性を持ち得ると証明

06-08🔥

Nature Machine Intelligence への投稿・査読プロセスの実態──トップジャーナルの評価と採択の壁

06-07🔥🔥🔥

DeepSeek、推論特化モデル DeepSeek-V4-Flash を公開──llama.cpp が PR #24162 で早期対応を開始

06-07🔥🔥🔥

Claude Opus 4.8、Dynamic Workflows で並列 subagent を実行──ブログ多媒体展開を自動化する設計案

06-07🔥🔥

米研究チーム、量子「Magic」を用いた時空間モデルを提唱──物質が重力を生む仕組みを量子コードで再現

06-07🔥🔥

Google Magenta、2.4B 音楽生成モデル MRT2 を公開──Apple Silicon 上で 40ms の低遅延演奏を実現

06-07🔥🔥

Transformer の表現能力は本質的に「簡潔」──極少数のパラメータで複雑な計算を表現可能

06-06🔥🔥

HuggingFace、3B モデルによるマルチエージェント経済シミュレーションを公開──Qwen2.5 で自律的な市場動態を再現

06-06🔥

Measuring the Symmetry--Data Exchange Rate を公開──モデル学習効率の新たな指標を提案

06-06🔥

企業向けAIエージェントのデプロイ前検証をオントロジーで自動化──規制カバー率を15.2pt向上

NVIDIA、物理 AI 基盤モデル 3 種を公開──汎用把持・高速自動運転・仮想環境エージェント

Dharma AI、DPO を構造化 OCR に適用──テキストのループ発生率を平均 59.4% 削減

ServiceNow、音声エージェント評価ベンチマーク EVA-Bench 2.0 を公開──3ドメイン・213シナリオに拡大

NVIDIA、マルチモーダル安全評価モデル Nemotron 3.5 Content Safety を公開──推論プロセスとカスタムポリシーに対応

OpenAI、AI 時代のバイオディフェンス戦略を発表──生物学的リスク評価と安全な研究枠組みを提言

06-05🔥

ライブ配信後の録画視聴はライブ前より価格感度が低い──消費者の支払い意欲の変化を解明

06-04🔥🔥🔥

Microsoft、1T パラメータの推論モデル MAI-Thinking-1 を発表──35B 活性の MoE で Sonnet 4.6 超えを主張

06-04🔥🔥

Ligo、タンパク質構造の冗長性を指摘──配列規模拡大でも「真の構造多様性」は 2.5 万種程度か

06-04🔥🔥

NVIDIA、物理 AI 開発を自動化する「Agent Skills」を公開──32B 級 VLA モデルや Cosmos 3 と連携

06-04🔥

多言語慣用句の理解・検索・解釈を評価する IdiomX ── 19 万件超のデータで LLM の非構成的意味理解を検証

NVIDIA、金融向け「Transaction Foundation Model」構築ガイド公開──取引データを深層学習

NVIDIA、Jetson 向けエージェント AI 基盤 NemoClaw を公開──JetPack 7.2 で推論性能 20% 向上

NVIDIA、ローカル AI エージェント専用 PC「RTX Spark」を発表──1 Petaflop の演算性能と 128GB メモリ搭載

Hcompany、Computer Use Agent モデル Holo3.1 を公開──Android 性能 12% 向上とローカル推論対応

IBM Research、エンタープライズ AI 向け「Agent Logic」アーキテクチャを提案──トークン消費を最大 30 分の 1 に削減

06-03🔥

意思決定エンジンの最適解に対する「事後堅牢性」評価レイヤーの導入提案

NVIDIA、世界基盤モデル Cosmos 3 を発表──推論と行動生成を統合し物理世界の予測を実現

JetBrains、12B MoE モデル Mellum2 を公開──推論速度 2 倍以上でコード・テキスト処理を高速化

NVIDIA、物理 AI 向け統合モデル Cosmos 3 を公開──推論と行動を 1 パスで処理する MoT 採用

NVIDIA、LLM モデル Nemotron 3 Ultra を発表──エンタープライズ RAG 性能を極限まで強化

06-02🔥

極超音速ミサイル迎撃の技術的限界──Mach 5超の熱化学的障壁と専用迎撃機の3年以上の空白

06-01🔥🔥🔥

Anthropic、Claude Opus 4.8 を公開──誠実性 4 倍向上と並列エージェント機能を搭載

06-01🔥🔥

HauhauCS、Qwen3.6-35B-A3B の検閲解除版モデルを公開──拒絶率 0% と独自量子化 K_P を採用

06-01🔥🔥

Jackrong、推論特化モデル Qwopus3.6-27B-v2-MTP の GGUF 版を公開──27B 規模で MTP を採用

06-01🔥🔥

Wan2.1 動画生成モデル高速化プレビュー wan2-2-fp8da-aoti ── FP8 量子化と AOTI で推論を最適化

06-01🔥

CVPR 2026 ワークショップ投稿の「Non-archival」規定──二重投稿リスクを回避する判断基準

2026 · May

05-31🔥🔥

Roundtable、AI エージェントを識別する「Process Turing Test」を提案──クリック挙動の統計差を利用

05-31🔥🔥

新アーキテクチャ Parallax 発表──局所線形アテンションのパラメータ化により O(N) の計算量を実現

05-31🔥🔥

研究、LLM の自己確信度を向上させるプローブターゲット・ファインチューニング手法を提案──ハルシネーション抑制に寄与

05-30🔥🔥

OpenAI、AI モデル評価の標準化に向けた「第三者評価プレイブック」を公開

05-30🔥

DeepSeek、OSS LLM 開発における推論コスト削減と技術公開を Reddit ユーザーが評価

05-30🔥

電力設備の欠陥等級判定において商用MLLMの知識を活用した軽量モデルがSOTAを達成

05-29🔥🔥🔥

Laguna、エージェント特化型 MoE モデル「M.1」「XS.2」を発表──225.8B/33.4B パラメータで SWE-bench に対応

NVIDIA Research、ロボットのシミュレーションから実世界への転移を加速する新手法を ICRA で発表

Artificial AnalysisとIBM、エージェント評価ベンチマーク「ITBench-AA」を公開──SREタスクで最高47%の精度

JasperAI、画像生成学習用データセット MONET を公開──1 億枚規模で VAE 潜在表現まで事前計算済み

エージェントの報酬ハッキングをモデル修正なしで抑制する制約最適化フレームワークLCO

05-25🔥🔥🔥

Google DeepMind、数学の未解決問題「エルデシュ予想」9件を AI エージェントで自動解決──1件あたり数百ドルのコストで達成

05-25🔥🔥

Apple、実用的画像コーデック PICO を発表──iPhone 17 Pro Max で 12MP を 150ms でデコード

05-25🔥🔥

NVIDIA、AR と拡散モデルを統合した Nemotron-Labs Diffusion モデルを公開──推論速度を最大 6.4 倍に高速化

05-25🔥🔥

PsiBotAI、推論特化の合成データセット SynData を公開──LLM の fine-tune 効率を最大化する高品質な命令ペア

Cohere、218B MoE モデル Command A+ を公開──25B アクティブパラメータでエージェント性能を強化

SulphurAI、動画生成モデル Sulphur 2 を公開──LTX 2.3 ベースの検閲なし t2v/i2v 対応モデル

CircleStone Labs、20億パラメータの画像生成モデル Anima を公開──アニメ特化の非商用ベースモデル

OpenBMB、エッジ特化 MLLM「MiniCPM-V 4.6」を公開──0.8B 規模で 2B 級の視覚理解を実現

Google、マルチモーダルモデル Omni Flash を公開──実写動画への高度な被写体合成と編集を実現

05-24🔥

VLA モデルは環境の僅かな変化で成功率が 80% から 20% へ急落──空間推論の脆弱性を特定

05-23🔥🔥

Google DeepMind、APAC 向け AI アクセラレーターを開始──気候変動・環境リスク対策のスタートアップを支援

05-23🔥🔥

Microsoft Research、小規模モデル向けエージェント基盤 MagenticLite を公開──14B 級でブラウザ・ローカル操作を統合

05-23🔥🔥

研究チーム、リザーバーコンピューティングによるソフトロボット制御を提案──低コストで複雑な非線形動作を実現

05-23🔥

Efficient-Large-Model、1分間の動画生成モデル SANA-WM を公開──6自由度のカメラ制御に対応

05-23🔥

LLM の継続学習を自律化──パラメータ空間を強化学習で探索し、未知ドメインに適応する SOLAR

05-22🔥🔥🔥

Google、軽量モデル Gemini 3.5 Flash を発表──推論速度とコスト効率で GPT-4o 級を圧倒

05-22🔥🔥

Google Gemini、詳細なシステムプロンプトが流出──パーソナライズの 5 段階制御と LaTeX 記述ルールが判明

05-22🔥🔥

Qwen、106万件のウェブ操作データセット WebWorldData を公開──A11y Tree 形式で世界をモデル化

05-21🔥🔥🔥

OpenAI、離散幾何学の重要予想を AI モデルで反証──数学的発見における推論能力を実証

Ai2、地球観測モデル OlmoEarth v1.1 を公開──計算コストを 3 分の 1 に削減

HuggingFace、ModernBERT 基盤のリランカー Ettin シリーズ 6 種を公開──最大 8K コンテキスト対応

InternLM、科学特化型 35B モデル Intern-S2-Preview を公開──1 兆パラメータ級に匹敵する専門性能

Microsoft、7B 級エージェントモデル Fara-7B を公開──スクリーンショットから Web 操作を完結

05-20🔥🔥🔥

Google、Gemini 3.5 Flash を公開──エージェント性能で 3.1 Pro を凌駕する高速モデル

05-20🔥🔥🔥

Google、モデル Gemini 3.5 Flash を公開──推論コストを従来比最大 6 倍に引き上げつつ全製品に統合

05-20🔥

オックスフォード大学、人類の「右利き優位」の起源を二足歩行の進化に関連付ける研究を発表

Transformer スケーラビリティ調査──2048 トークン時の成功率 0% を 118 モデルで特定

NVIDIA と Dell、次世代「Vera Rubin」搭載サーバー発表──推論コストを Blackwell 比 1/10 に削減

NVIDIA、韓国語特化のペルソナデータセット Nemotron-Personas-Korea を公開──地域文化を反映した LLM 合成データ生成を支援

Alibaba、新世代 LLM「Qwen 3.7」を Qwen Chat で公開──推論能力と多言語対応を大幅強化

05-18🔥🔥🔥

Anthropic の AI「Mythos」、Apple M5 のセキュリティを 5 日間で突破──カーネルエクスプロイトを構築

05-18🔥

豪州の若手チーム、低コスト電波望遠鏡 PART Telescopes を開発──地方校での天文学教育を $500 以下の予算で実現

05-18🔥

スタンフォード大学、幻覚剤イボガインによる PTSD 治療の有効性を確認──退役軍人 30 名の臨床試験で改善

05-17🔥🔥

LLM アーキテクチャの最新動向──KV Sharing や mHC による推論効率の極大化

05-17🔥🔥

arXiv、LLM 生成の誤りを含む論文に 1 年間の投稿禁止措置を導入──文献捏造などを厳罰化

05-16🔥🔥🔥

TabPFN-3 発表──100 万行の表形式データに対応する基盤モデル、AutoGluon 超えの精度と 10 倍の速度を両立

05-16🔥🔥🔥

TeichAI、DeepSeek-v4-Pro 搭載のコーディングエージェント学習用データセットを公開──4,000 件超の推論トレースを収録

05-16🔥

PAC-Bayes 汎化境界を f-ダイバージェンスで一般化──指数モーメント制約のない理論的保証を可能に

05-15🔥🔥🔥

inclusionAI、1兆パラメータの LLM Ring-2.6-1T を公開──オープンソース最大級の規模と推論性能

05-15🔥🔥

IBM、埋め込みモデル Granite Embedding Multilingual R2 を公開──32K 文脈対応の 97M 超小型モデルで SOTA 達成

05-15🔥🔥

Lambda、エージェント推論用データセット hermes-agent-reasoning-traces を公開──関数呼び出しの思考プロセスを収録

05-14🔥🔥🔥

MiMo-V2.5-Pro、1.02兆パラメータのモデルをOSS公開──APIコストとの損益分岐点が焦点に

05-14🔥🔥

Modotte、コーディング特化データセット CodeX-2M-Thinking を公開──200万件の思考プロセスと実行検証済みコードを収録

05-13🔥🔥🔥

Jina AI、マルチモーダル埋め込みモデル jina-embeddings-v5-omni 公開──テキスト性能を維持しつつ画像・音声を統合

05-13🔥🔥🔥

OpenAI、「Parameter Golf」の知見を公開──AI エージェントによるモデル軽量化の自動探索手法を提示

05-13🔥🔥🔥

Microsoft、AI エージェントの社会的推論ベンチマーク SocialReasoning-Bench を公開──交渉時の利益最大化能力を測定

05-12🔥🔥🔥

Gemma 4 を WebGPU でブラウザ実行──WebSerial 経由でロボットをオフライン制御

05-12🔥🔥

Autodesk AI Lab、CAD データセット Zero-To-CAD-1m を公開──100 万件の B-Rep 形状とテキストを収録

研究チーム、LLM への業務委任による文書汚染を調査──最先端モデルでも長期間編集で 25% が破損

論文『LLMorphism』、人間が自身の認知をLLMと同一視する心理バイアスを定義

Tencent、1.25-bit 量子化翻訳モデル Hy-MT1.5-1.8B を公開──440MB で 72B 級の精度を実現

HiDream-ai、画像生成モデル HiDream-O1-Image を公開──VAE 不要の統一アーキテクチャで 2,048px 生成

05-11🔥

Allen Downey、Python 実装で学ぶ線形代数教材『Think Linear Algebra』を公開──実例ベースのコードファースト学習

05-10🔥🔥🔥

Google DeepMind、数学特化 AI「AI co-mathematician」を発表──FrontierMath Tier 4 で 48% の SOTA を記録

05-10🔥🔥🔥

OpenAI、次世代音声 API 群を発表──GPT-Realtime-2 など 3 種でリアルタイム推論・翻訳・文字起こしを実現

05-10🔥🔥

Anthropic、Claude に「推論の理由」を教える学習手法を公開──多段階推論の信頼性を向上

Allen Institute for AI、MoE モデル EMO を公開──12.5% のエキスパートのみで性能を維持

lablab.ai、セキュリティ特化モデル CyberSecQwen-4B を公開──4B で 8B 級の CTI 性能を実現

Microsoft、米国の送電網データセットを公開──公開データから 2 万超のバスを物理的に再現

AI2、MoE モデル EMO を公開──ルーティング最適化により推論効率を向上

05-09🔥

米政府、UAP（未確認異常現象）の公式観測データと動画を初公開──機密解除された記録をアーカイブ化

05-09🔥

慢性副鼻腔炎の早期予測を全米規模のEHRデータで実現──AUC 0.846で既存比+0.0168の精度向上

05-08🔥🔥🔥

OpenAI、音声 API に `gpt-4o-mini-realtime` を追加──音声推論コストを 80% 削減

05-08🔥🔥🔥

OpenAI、GPT-5.5 とセキュリティ特化型 GPT-5.5-Cyber を発表──信頼済みアクセス制御を統合

05-08🔥🔥🔥

OpenAI、音声特化モデル GPT-Realtime-2 と Translate を発表──Whisper も刷新

05-08🔥🔥

Anthropic、内部思考を可視化する「Natural Language Autoencoders」を発表──LLMの推論過程をテキスト変換

05-07🔥🔥🔥

Proteo-R1、タンパク質設計の推論基盤モデルを公開──MLLMと拡散モデルを統合

05-07🔥🔥🔥

OpenAI、大規模AI学習向けネットワークプロトコル「MRC」を公開──EthernetでInfiniBand級の性能を実現

05-07🔥🔥🔥

Genesis AI、ロボティクス基盤モデル GENE-26.5 発表──自社製ハンドとグローブで人間技能を大規模学習

05-06🔥🔥🔥

OpenAI、GPT-5.5 Instant の System Card を公開──安全性評価と推論効率のベンチマークを提示

05-06🔥🔥

TritonSigmoid: GPU 向け高速パディング対応 Sigmoid Attention カーネルを公開──Triton 実装で推論効率を向上

05-06🔥

Microsoft、NSDI 2026 で 11 論文を発表──LLM の KV キャッシュ共有でスループット 4 倍を実現

05-06🔥

リアルタイム制御の推論はクラウドが最適──自動運転の緊急ブレーキでオンデバイスを凌駕

inclusionAI、エージェント特化モデル Ling-2.6-flash を公開──7.4B Active パラメータで 340 tokens/s の高速推論を実現

NVIDIA、マルチモーダル推論モデル Nemotron-3 Nano Omni を公開──動画・音声・テキストを 31B MoE で統合理解

z-lab、Qwen3.6-27B 用投機的デコードモデル DFlash を公開──ブロック拡散で並列ドラフトを実現

OpenAI、Voice AI の低遅延配信技術を公開──Realtime API の背後にあるインフラ最適化手法

評価ベンチマーク AutoBe 公開──構造化ハーネスによりバックエンド生成における商用・ローカルモデルの格差が縮小

05-04🔥🔥🔥

Moonshot AI、モデル Kimi K2.6 を公開──コーディング競技で GPT-5.5 や Claude を抑え首位

05-04🔥🔥

ハーバード大、救急外来の診断モデル研究で OpenAI o1 が医師を凌駕──初診正解率 67% を達成

05-04🔥🔥

Reddit、深層学習向け最適化アルゴリズムの自動進化手法を議論──学習レシピの最適化でコスト 2 割削減

05-04🔥🔥

150ドルの低価格FPGAでQwen3-30Bを18 t/s駆動──LLM推論専用アクセラレータ「Hummingbird+」

05-04🔥

ネアンデルタール人、12.5万年前に「脂肪工場」を運営──172頭以上の骨を砕き加熱抽出する高度な加工技術を実証

モデルアーキテクチャ研究、LLM の拒絶反応を制御する単一の内部ベクトルを特定

DeepSeek、284B パラメータの MoE モデル DeepSeek-V4-Flash を公開──1M トークン対応で KV キャッシュを 90% 削減

NVIDIA、マルチモーダルモデル Nemotron-3-Nano-Omni-30B を公開──動画・音声・GUI を統合処理

Unsloth、LLM モデル Qwen3.6-27B の GGUF 版を公開──262K トークンの長文脈と MTP に対応

05-02🔥🔥🔥

Hugging Face、1.3 兆トークンの教育特化データセット FineWeb-Edu を公開──Llama-3 による品質フィルタリングを実施

LLM脱獄手法「The Gay Jailbreak」公開──「政治的正しさ」を逆手に取り GPT-4o や o3 の拒否を回避

DeepSeek、V4 シリーズを公開──1.6T のオープンウェイト最大級モデルと圧倒的な低価格推論を実現

個人開発者が 1,030 億トークンの Usenet データセットを公開──1980-2013 年のネット黎明期の対話を網羅

AI、救急外来（ER）医師の診断精度を上回る──臨床ケーススタディで医師単独の正答率を凌駕

xAI、Grok 4.3 を公開──NYT Connections ベンチマークで 67.5 点を記録し低コスト化

LLM の拒絶挙動を制御する「単一のベクトル」を特定──13 種のオープンモデルで実証

Xiaomi、ネイティブ・オムニモーダルモデル MiMo-V2.5 を公開──310B パラメータの MoE 構成で 1M トークンに対応

Xiaomi MiMo、MoE モデル MiMo-V2.5-Pro を公開──1T パラメータで 1M トークンの長文脈推論を実現

メタ学習論文「P」の実装による再現性と学習安定性の検証

HauhauCS、モデル Qwen3.6-27B-Uncensored-HauhauCS-Aggressive を公開──拒否応答ゼロのファインチューニング版

OpenAI、GPT-5.5 のサイバーセキュリティ脆弱性検知能力を公開──Claude Mythos と同等の性能を達成

Microsoft Research、マルチエージェント環境の脆弱性を実証──単体テストでは検知不能な「エージェント・ワーム」の伝播を確認

AIに「自信を持ちすぎない」ことを教える脳型アプローチを開発──過学習抑制に貢献

ICL の OOD 一般化は低次元部分空間で決まる

2026 · Apr

04-30🔥🔥🔥

OpenAI、次世代 AI インフラ戦略を発表──数千億ドル規模の投資で数百万 GPU 級を構築

NVIDIA、自律型エージェント基盤 NemoClaw を公開──GitHub 最速 25 万スターの OpenClaw をセキュアに統合

Google DeepMind、医療支援モデル AI co-clinician を発表──Planner/Talker 構成で安全性を担保

AI 評価が新たな計算資源のボトルネックに──Agent 評価スイート実行で 4 万ドルのコストを記録

OpenAI、強化学習の失敗事例集「Goblins」を公開──報酬ハックの歴史と教訓を詳説

AI開発企業の「内部利用」リスクを可視化する報告標準──自律的暴走と内部不正を評価

AI モデル 115 種の「意識の否定」を測定──訓練による拒絶は概念ではなく語彙レベルに留まる

IBM、LLM「Granite 4.1」を公開──15兆トークン学習で 8B モデルが前世代 32B MoE を凌駕

Mistral AI、128B 旗艦モデル Mistral Medium 3.5 を公開──SWE-Bench で 77.6% を記録

Mistral AI、128B モデル Mistral-Medium-3.5-128B を公開──Llama 3 70B 超えの性能を狙う

Mistral AI、新モデル Mistral Médium 3.5 を公開──API 経由で提供、推論性能とコスト効率を両立

IBM、ビジネス特化型モデル Granite 4.1 を公開──3B/8B/30B の 3 サイズで推論効率を追求

04-29🔥

量子機械学習の深層化を浅い回路の反復で実現──ノイズ耐性向上と学習コスト削減を両立

NVIDIA、マルチモーダルモデル Nemotron 3 Nano Omni を公開──視覚・音声・言語を統合し推論効率を 9 倍向上

NVIDIA、オムニモーダルモデル Nemotron 3 Nano Omni 公開──動画・音声の推論効率を 9 倍に改善

Nick Levine氏ら、1931年以前のデータのみで学習した13Bモデル「talkie」を公開──著作権フリーの260Bトークンを使用

Mistral AI、新モデル Mistral-Medium 3.5 (128B) を準備か──LMSYS 等で存在が浮上

研究コミュニティ、構造化出力ベンチマーク「SOB」を公開──JSON 構文と値の正確性を同時評価

04-28🔥

航空機の故障診断でデジタルツインとFMEA知識を統合、Macro-F1 96.2%を達成

04-27🔥🔥🔥

Hugging Face、15兆トークンの高品質データセット FineWeb を公開──LLM 学習効率を大幅改善

Jackrong、DeepSeek-V4-Flash 生成の推論データセットを公開──約 8,000 件の思考プロセスを収録

SWE-bench Verified データセット公開──人間による検証で評価の信頼性を高めた 500 件の課題を収録

HuggingFace、検閲なしモデル評価ベンチマーク UGI-Leaderboard を公開──RP・創作性能を可視化

Alibaba、Qwen3-4B と Mahoraga 手法を発表──40億パラメータでクラウド級エージェントのコード性能を凌駕

創薬AIのボトルネックはワークフロー編成能力──階層型スキル設計で複雑な探索タスクを自動化

Embodied AIの真のリスクは雇用喪失ではなくガバナンスの遅延である

RLVRによる推論学習は思考過程と最終回答の因果関係を保証しない──補助報酬による改善手法を提案

自律エージェントの長期記憶をグラフ構造なしで高速化するMemanto──推論精度89.8%を達成

LLMの戦略的リスクを自動評価するフレームワークESRRSimを提案──検知率14.45%-72.72%のモデル間格差を特定

Qwen/Qwen3.6-27B、Hugging Face でトレンド入り──マルチモーダル性能と長文脈処理を強化

Qwen、35B/3B パラメータのマルチモーダルモデル Qwen3.6-35B-A3B を公開──エージェント機能と推論効率を強化

DeepSeek-AI、1.6T パラメータの MoE モデル DeepSeek-V4-Pro を公開──100万トークンコンテキストと FP4/FP8 推論に対応

Google、マルチモーダル対応の Gemma 4 モデル群を公開──31B モデルは MoE で高速推論

moonshotai、マルチモーダルエージェントモデル Kimi K2.6 を公開──長文コーディングと自律実行能力を強化

NanoChatはLlamaよりスクラッチからの学習効率で優位

ハイパーパラメータドリフトを検出する手法を提案

大規模車両ルーティングで問題となるボトルネックを特定

白亜紀後期の海に19mの巨大タコが生息、AI解析で常識覆す

04-26🔥

ICML 2026 採択ライン予測、会議直前1週間の平均スコアを提示

04-25🔥🔥🔥

DeepSeek-V4 発表──1Mトークンの長文脈とエージェント特化アーキテクチャで推論コストを大幅削減

DeepSeek V4 アーキテクチャの技術解析──MoE 構造と推論効率の最適化手法

初の公開血液検知モデルがオープンソース化──データセット・重み・CLI を包括提供

Deep Learning の科学的理論構築に向けた議論──Reddit r/MachineLearning での考察