research · 203 topics
モデルリリース・ベンチマーク・エンジニアリング系発表2026 · Jun
研究チーム、エージェント型開発のトークン消費を分析──コードレビューが 59.4% を占めると判明
06-08🔥LLM の擬人化属性を批判する研究──Age of Empires II も同様の属性を持ち得ると証明
06-08🔥🔥Cohere、未発表のコーディング特化モデルを Reddit コミュニティ限定で先行公開
06-08🔥🔥🔥DeepSeek-V3 は MoE と FP8 訓練で学習効率を極限まで追求──H100 換算 2.7M 時間で SOTA 級へ
06-08🔥Nature Machine Intelligence への投稿・査読プロセスの実態──トップジャーナルの評価と採択の壁
06-07🔥🔥米研究チーム、量子「Magic」を用いた時空間モデルを提唱──物質が重力を生む仕組みを量子コードで再現
06-07🔥🔥Google Magenta、2.4B 音楽生成モデル MRT2 を公開──Apple Silicon 上で 40ms の低遅延演奏を実現
06-07🔥🔥🔥DeepSeek、推論特化モデル DeepSeek-V4-Flash を公開──llama.cpp が PR #24162 で早期対応を開始
06-07🔥🔥🔥Claude Opus 4.8、Dynamic Workflows で並列 subagent を実行──ブログ多媒体展開を自動化する設計案
06-07🔥🔥Transformer の表現能力は本質的に「簡潔」──極少数のパラメータで複雑な計算を表現可能
06-06🔥🔥HuggingFace、3B モデルによるマルチエージェント経済シミュレーションを公開──Qwen2.5 で自律的な市場動態を再現
06-06🔥Measuring the Symmetry--Data Exchange Rate を公開──モデル学習効率の新たな指標を提案
06-06🔥企業向けAIエージェントのデプロイ前検証をオントロジーで自動化──規制カバー率を15.2pt向上
06-05🔥🔥NVIDIA、物理 AI 基盤モデル 3 種を公開──汎用把持・高速自動運転・仮想環境エージェント
06-05🔥🔥Dharma AI、DPO を構造化 OCR に適用──テキストのループ発生率を平均 59.4% 削減
06-05🔥🔥ServiceNow、音声エージェント評価ベンチマーク EVA-Bench 2.0 を公開──3ドメイン・213シナリオに拡大
06-05🔥🔥NVIDIA、マルチモーダル安全評価モデル Nemotron 3.5 Content Safety を公開──推論プロセスとカスタムポリシーに対応
06-05🔥🔥OpenAI、AI 時代のバイオディフェンス戦略を発表──生物学的リスク評価と安全な研究枠組みを提言
06-05🔥ライブ配信後の録画視聴はライブ前より価格感度が低い──消費者の支払い意欲の変化を解明
06-04🔥🔥Ligo、タンパク質構造の冗長性を指摘──配列規模拡大でも「真の構造多様性」は 2.5 万種程度か
06-04🔥🔥🔥Microsoft、1T パラメータの推論モデル MAI-Thinking-1 を発表──35B 活性の MoE で Sonnet 4.6 超えを主張
06-04🔥🔥NVIDIA、物理 AI 開発を自動化する「Agent Skills」を公開──32B 級 VLA モデルや Cosmos 3 と連携
06-04🔥多言語慣用句の理解・検索・解釈を評価する IdiomX ── 19 万件超のデータで LLM の非構成的意味理解を検証
06-03🔥🔥NVIDIA、金融向け「Transaction Foundation Model」構築ガイド公開──取引データを深層学習
06-03🔥🔥NVIDIA、Jetson 向けエージェント AI 基盤 NemoClaw を公開──JetPack 7.2 で推論性能 20% 向上
06-03🔥🔥NVIDIA、ローカル AI エージェント専用 PC「RTX Spark」を発表──1 Petaflop の演算性能と 128GB メモリ搭載
06-03🔥🔥Hcompany、Computer Use Agent モデル Holo3.1 を公開──Android 性能 12% 向上とローカル推論対応
06-03🔥🔥IBM Research、エンタープライズ AI 向け「Agent Logic」アーキテクチャを提案──トークン消費を最大 30 分の 1 に削減
06-03🔥意思決定エンジンの最適解に対する「事後堅牢性」評価レイヤーの導入提案
06-02🔥極超音速ミサイル迎撃の技術的限界──Mach 5超の熱化学的障壁と専用迎撃機の3年以上の空白
06-02🔥🔥NVIDIA、世界基盤モデル Cosmos 3 を発表──推論と行動生成を統合し物理世界の予測を実現
06-02🔥🔥JetBrains、12B MoE モデル Mellum2 を公開──推論速度 2 倍以上でコード・テキスト処理を高速化
06-02🔥🔥NVIDIA、物理 AI 向け統合モデル Cosmos 3 を公開──推論と行動を 1 パスで処理する MoT 採用
06-02🔥🔥NVIDIA、LLM モデル Nemotron 3 Ultra を発表──エンタープライズ RAG 性能を極限まで強化
06-01🔥🔥🔥Anthropic、Claude Opus 4.8 を公開──誠実性 4 倍向上と並列エージェント機能を搭載
06-01🔥🔥HauhauCS、Qwen3.6-35B-A3B の検閲解除版モデルを公開──拒絶率 0% と独自量子化 K_P を採用
06-01🔥🔥Jackrong、推論特化モデル Qwopus3.6-27B-v2-MTP の GGUF 版を公開──27B 規模で MTP を採用
06-01🔥🔥Wan2.1 動画生成モデル高速化プレビュー wan2-2-fp8da-aoti ── FP8 量子化と AOTI で推論を最適化
06-01🔥CVPR 2026 ワークショップ投稿の「Non-archival」規定──二重投稿リスクを回避する判断基準
2026 · May
Roundtable、AI エージェントを識別する「Process Turing Test」を提案──クリック挙動の統計差を利用
05-31🔥🔥新アーキテクチャ Parallax 発表──局所線形アテンションのパラメータ化により O(N) の計算量を実現
05-31🔥🔥研究、LLM の自己確信度を向上させるプローブターゲット・ファインチューニング手法を提案──ハルシネーション抑制に寄与
05-30🔥🔥OpenAI、AI モデル評価の標準化に向けた「第三者評価プレイブック」を公開
05-30🔥DeepSeek、OSS LLM 開発における推論コスト削減と技術公開を Reddit ユーザーが評価
05-30🔥電力設備の欠陥等級判定において商用MLLMの知識を活用した軽量モデルがSOTAを達成
05-29🔥🔥🔥Laguna、エージェント特化型 MoE モデル「M.1」「XS.2」を発表──225.8B/33.4B パラメータで SWE-bench に対応
05-29🔥🔥NVIDIA Research、ロボットのシミュレーションから実世界への転移を加速する新手法を ICRA で発表
05-29🔥🔥Artificial AnalysisとIBM、エージェント評価ベンチマーク「ITBench-AA」を公開──SREタスクで最高47%の精度
05-29🔥🔥JasperAI、画像生成学習用データセット MONET を公開──1 億枚規模で VAE 潜在表現まで事前計算済み
05-29🔥🔥エージェントの報酬ハッキングをモデル修正なしで抑制する制約最適化フレームワークLCO
05-25🔥🔥Apple、実用的画像コーデック PICO を発表──iPhone 17 Pro Max で 12MP を 150ms でデコード
05-25🔥🔥🔥Google DeepMind、数学の未解決問題「エルデシュ予想」9件を AI エージェントで自動解決──1件あたり数百ドルのコストで達成
05-25🔥🔥NVIDIA、AR と拡散モデルを統合した Nemotron-Labs Diffusion モデルを公開──推論速度を最大 6.4 倍に高速化
05-25🔥🔥PsiBotAI、推論特化の合成データセット SynData を公開──LLM の fine-tune 効率を最大化する高品質な命令ペア
05-24🔥🔥🔥Cohere、218B MoE モデル Command A+ を公開──25B アクティブパラメータでエージェント性能を強化
05-24🔥🔥🔥SulphurAI、動画生成モデル Sulphur 2 を公開──LTX 2.3 ベースの検閲なし t2v/i2v 対応モデル
05-24🔥🔥🔥CircleStone Labs、20億パラメータの画像生成モデル Anima を公開──アニメ特化の非商用ベースモデル
05-24🔥🔥🔥OpenBMB、エッジ特化 MLLM「MiniCPM-V 4.6」を公開──0.8B 規模で 2B 級の視覚理解を実現
05-24🔥🔥🔥Google、マルチモーダルモデル Omni Flash を公開──実写動画への高度な被写体合成と編集を実現
05-24🔥VLA モデルは環境の僅かな変化で成功率が 80% から 20% へ急落──空間推論の脆弱性を特定
05-23🔥🔥Google DeepMind、APAC 向け AI アクセラレーターを開始──気候変動・環境リスク対策のスタートアップを支援
05-23🔥🔥Microsoft Research、小規模モデル向けエージェント基盤 MagenticLite を公開──14B 級でブラウザ・ローカル操作を統合
05-23🔥🔥研究チーム、リザーバーコンピューティングによるソフトロボット制御を提案──低コストで複雑な非線形動作を実現
05-23🔥Efficient-Large-Model、1分間の動画生成モデル SANA-WM を公開──6自由度のカメラ制御に対応
05-23🔥LLM の継続学習を自律化──パラメータ空間を強化学習で探索し、未知ドメインに適応する SOLAR
05-22🔥🔥Google Gemini、詳細なシステムプロンプトが流出──パーソナライズの 5 段階制御と LaTeX 記述ルールが判明
05-22🔥🔥🔥Google、軽量モデル Gemini 3.5 Flash を発表──推論速度とコスト効率で GPT-4o 級を圧倒
05-22🔥🔥Qwen、106万件のウェブ操作データセット WebWorldData を公開──A11y Tree 形式で世界をモデル化
05-21🔥🔥🔥OpenAI、離散幾何学の重要予想を AI モデルで反証──数学的発見における推論能力を実証
05-21🔥🔥Ai2、地球観測モデル OlmoEarth v1.1 を公開──計算コストを 3 分の 1 に削減
05-21🔥🔥HuggingFace、ModernBERT 基盤のリランカー Ettin シリーズ 6 種を公開──最大 8K コンテキスト対応
05-21🔥🔥InternLM、科学特化型 35B モデル Intern-S2-Preview を公開──1 兆パラメータ級に匹敵する専門性能
05-21🔥🔥Microsoft、7B 級エージェントモデル Fara-7B を公開──スクリーンショットから Web 操作を完結
05-20🔥オックスフォード大学、人類の「右利き優位」の起源を二足歩行の進化に関連付ける研究を発表
05-20🔥🔥🔥Google、Gemini 3.5 Flash を公開──エージェント性能で 3.1 Pro を凌駕する高速モデル
05-20🔥🔥🔥Google、モデル Gemini 3.5 Flash を公開──推論コストを従来比最大 6 倍に引き上げつつ全製品に統合
05-19🔥🔥🔥Transformer スケーラビリティ調査──2048 トークン時の成功率 0% を 118 モデルで特定
05-19🔥🔥🔥NVIDIA と Dell、次世代「Vera Rubin」搭載サーバー発表──推論コストを Blackwell 比 1/10 に削減
05-19🔥🔥🔥NVIDIA、韓国語特化のペルソナデータセット Nemotron-Personas-Korea を公開──地域文化を反映した LLM 合成データ生成を支援
05-19🔥🔥🔥Alibaba、新世代 LLM「Qwen 3.7」を Qwen Chat で公開──推論能力と多言語対応を大幅強化
05-18🔥豪州の若手チーム、低コスト電波望遠鏡 PART Telescopes を開発──地方校での天文学教育を $500 以下の予算で実現
05-18🔥スタンフォード大学、幻覚剤イボガインによる PTSD 治療の有効性を確認──退役軍人 30 名の臨床試験で改善
05-18🔥🔥🔥Anthropic の AI「Mythos」、Apple M5 のセキュリティを 5 日間で突破──カーネルエクスプロイトを構築
05-17🔥🔥LLM アーキテクチャの最新動向──KV Sharing や mHC による推論効率の極大化
05-17🔥🔥arXiv、LLM 生成の誤りを含む論文に 1 年間の投稿禁止措置を導入──文献捏造などを厳罰化
05-16🔥🔥🔥TabPFN-3 発表──100 万行の表形式データに対応する基盤モデル、AutoGluon 超えの精度と 10 倍の速度を両立
05-16🔥🔥🔥TeichAI、DeepSeek-v4-Pro 搭載のコーディングエージェント学習用データセットを公開──4,000 件超の推論トレースを収録
05-16🔥PAC-Bayes 汎化境界を f-ダイバージェンスで一般化──指数モーメント制約のない理論的保証を可能に
05-15🔥🔥🔥inclusionAI、1兆パラメータの LLM Ring-2.6-1T を公開──オープンソース最大級の規模と推論性能
05-15🔥🔥IBM、埋め込みモデル Granite Embedding Multilingual R2 を公開──32K 文脈対応の 97M 超小型モデルで SOTA 達成
05-15🔥🔥Lambda、エージェント推論用データセット hermes-agent-reasoning-traces を公開──関数呼び出しの思考プロセスを収録
05-14🔥🔥🔥MiMo-V2.5-Pro、1.02兆パラメータのモデルをOSS公開──APIコストとの損益分岐点が焦点に
05-14🔥🔥Modotte、コーディング特化データセット CodeX-2M-Thinking を公開──200万件の思考プロセスと実行検証済みコードを収録
05-13🔥🔥🔥Jina AI、マルチモーダル埋め込みモデル jina-embeddings-v5-omni 公開──テキスト性能を維持しつつ画像・音声を統合
05-13🔥🔥🔥OpenAI、「Parameter Golf」の知見を公開──AI エージェントによるモデル軽量化の自動探索手法を提示
05-13🔥🔥🔥Microsoft、AI エージェントの社会的推論ベンチマーク SocialReasoning-Bench を公開──交渉時の利益最大化能力を測定
05-12🔥🔥🔥Gemma 4 を WebGPU でブラウザ実行──WebSerial 経由でロボットをオフライン制御
05-12🔥🔥Autodesk AI Lab、CAD データセット Zero-To-CAD-1m を公開──100 万件の B-Rep 形状とテキストを収録
05-11🔥🔥研究チーム、LLM への業務委任による文書汚染を調査──最先端モデルでも長期間編集で 25% が破損
05-11🔥Allen Downey、Python 実装で学ぶ線形代数教材『Think Linear Algebra』を公開──実例ベースのコードファースト学習
05-11🔥🔥論文『LLMorphism』、人間が自身の認知をLLMと同一視する心理バイアスを定義
05-11🔥🔥Tencent、1.25-bit 量子化翻訳モデル Hy-MT1.5-1.8B を公開──440MB で 72B 級の精度を実現
05-11🔥🔥HiDream-ai、画像生成モデル HiDream-O1-Image を公開──VAE 不要の統一アーキテクチャで 2,048px 生成
05-10🔥🔥Anthropic、Claude に「推論の理由」を教える学習手法を公開──多段階推論の信頼性を向上
05-10🔥🔥🔥Google DeepMind、数学特化 AI「AI co-mathematician」を発表──FrontierMath Tier 4 で 48% の SOTA を記録
05-10🔥🔥🔥OpenAI、次世代音声 API 群を発表──GPT-Realtime-2 など 3 種でリアルタイム推論・翻訳・文字起こしを実現
05-09🔥米政府、UAP(未確認異常現象)の公式観測データと動画を初公開──機密解除された記録をアーカイブ化
05-09🔥🔥Allen Institute for AI、MoE モデル EMO を公開──12.5% のエキスパートのみで性能を維持
05-09🔥🔥lablab.ai、セキュリティ特化モデル CyberSecQwen-4B を公開──4B で 8B 級の CTI 性能を実現
05-09🔥🔥Microsoft、米国の送電網データセットを公開──公開データから 2 万超のバスを物理的に再現
05-09🔥🔥AI2、MoE モデル EMO を公開──ルーティング最適化により推論効率を向上
05-09🔥慢性副鼻腔炎の早期予測を全米規模のEHRデータで実現──AUC 0.846で既存比+0.0168の精度向上
05-08🔥🔥Anthropic、内部思考を可視化する「Natural Language Autoencoders」を発表──LLMの推論過程をテキスト変換
05-08🔥🔥🔥OpenAI、音声 API に `gpt-4o-mini-realtime` を追加──音声推論コストを 80% 削減
05-08🔥🔥🔥OpenAI、GPT-5.5 とセキュリティ特化型 GPT-5.5-Cyber を発表──信頼済みアクセス制御を統合
05-08🔥🔥🔥OpenAI、音声特化モデル GPT-Realtime-2 と Translate を発表──Whisper も刷新
05-07🔥🔥🔥Proteo-R1、タンパク質設計の推論基盤モデルを公開──MLLMと拡散モデルを統合
05-07🔥🔥🔥OpenAI、大規模AI学習向けネットワークプロトコル「MRC」を公開──EthernetでInfiniBand級の性能を実現
05-07🔥🔥🔥Genesis AI、ロボティクス基盤モデル GENE-26.5 発表──自社製ハンドとグローブで人間技能を大規模学習
05-06🔥🔥🔥OpenAI、GPT-5.5 Instant の System Card を公開──安全性評価と推論効率のベンチマークを提示
05-06🔥🔥TritonSigmoid: GPU 向け高速パディング対応 Sigmoid Attention カーネルを公開──Triton 実装で推論効率を向上
05-06🔥Microsoft、NSDI 2026 で 11 論文を発表──LLM の KV キャッシュ共有でスループット 4 倍を実現
05-06🔥リアルタイム制御の推論はクラウドが最適──自動運転の緊急ブレーキでオンデバイスを凌駕
05-05🔥🔥inclusionAI、エージェント特化モデル Ling-2.6-flash を公開──7.4B Active パラメータで 340 tokens/s の高速推論を実現
05-05🔥🔥NVIDIA、マルチモーダル推論モデル Nemotron-3 Nano Omni を公開──動画・音声・テキストを 31B MoE で統合理解
05-05🔥🔥z-lab、Qwen3.6-27B 用投機的デコードモデル DFlash を公開──ブロック拡散で並列ドラフトを実現
05-05🔥🔥OpenAI、Voice AI の低遅延配信技術を公開──Realtime API の背後にあるインフラ最適化手法
05-05🔥🔥評価ベンチマーク AutoBe 公開──構造化ハーネスによりバックエンド生成における商用・ローカルモデルの格差が縮小
05-04🔥🔥🔥Moonshot AI、モデル Kimi K2.6 を公開──コーディング競技で GPT-5.5 や Claude を抑え首位
05-04🔥ネアンデルタール人、12.5万年前に「脂肪工場」を運営──172頭以上の骨を砕き加熱抽出する高度な加工技術を実証
05-04🔥🔥ハーバード大、救急外来の診断モデル研究で OpenAI o1 が医師を凌駕──初診正解率 67% を達成
05-04🔥🔥Reddit、深層学習向け最適化アルゴリズムの自動進化手法を議論──学習レシピの最適化でコスト 2 割削減
05-04🔥🔥150ドルの低価格FPGAでQwen3-30Bを18 t/s駆動──LLM推論専用アクセラレータ「Hummingbird+」
05-03🔥🔥モデルアーキテクチャ研究、LLM の拒絶反応を制御する単一の内部ベクトルを特定
05-03🔥🔥DeepSeek、284B パラメータの MoE モデル DeepSeek-V4-Flash を公開──1M トークン対応で KV キャッシュを 90% 削減
05-03🔥🔥NVIDIA、マルチモーダルモデル Nemotron-3-Nano-Omni-30B を公開──動画・音声・GUI を統合処理
05-03🔥🔥Unsloth、LLM モデル Qwen3.6-27B の GGUF 版を公開──262K トークンの長文脈と MTP に対応
05-02🔥🔥LLM脱獄手法「The Gay Jailbreak」公開──「政治的正しさ」を逆手に取り GPT-4o や o3 の拒否を回避
05-02🔥🔥DeepSeek、V4 シリーズを公開──1.6T のオープンウェイト最大級モデルと圧倒的な低価格推論を実現
05-02🔥🔥個人開発者が 1,030 億トークンの Usenet データセットを公開──1980-2013 年のネット黎明期の対話を網羅
05-02🔥🔥AI、救急外来(ER)医師の診断精度を上回る──臨床ケーススタディで医師単独の正答率を凌駕
05-02🔥🔥xAI、Grok 4.3 を公開──NYT Connections ベンチマークで 67.5 点を記録し低コスト化
05-02🔥🔥LLM の拒絶挙動を制御する「単一のベクトル」を特定──13 種のオープンモデルで実証
05-02🔥🔥🔥Hugging Face、1.3 兆トークンの教育特化データセット FineWeb-Edu を公開──Llama-3 による品質フィルタリングを実施
05-02🔥🔥Xiaomi、ネイティブ・オムニモーダルモデル MiMo-V2.5 を公開──310B パラメータの MoE 構成で 1M トークンに対応
05-02🔥🔥Xiaomi MiMo、MoE モデル MiMo-V2.5-Pro を公開──1T パラメータで 1M トークンの長文脈推論を実現
05-02🔥🔥メタ学習論文「P」の実装による再現性と学習安定性の検証
05-01🔥🔥HauhauCS、モデル Qwen3.6-27B-Uncensored-HauhauCS-Aggressive を公開──拒否応答ゼロのファインチューニング版
05-01🔥🔥OpenAI、GPT-5.5 のサイバーセキュリティ脆弱性検知能力を公開──Claude Mythos と同等の性能を達成
05-01🔥🔥Microsoft Research、マルチエージェント環境の脆弱性を実証──単体テストでは検知不能な「エージェント・ワーム」の伝播を確認
05-01🔥🔥AIに「自信を持ちすぎない」ことを教える脳型アプローチを開発──過学習抑制に貢献
05-01🔥🔥ICL の OOD 一般化は低次元部分空間で決まる
2026 · Apr
OpenAI、次世代 AI インフラ戦略を発表──数千億ドル規模の投資で数百万 GPU 級を構築
04-30🔥🔥NVIDIA、自律型エージェント基盤 NemoClaw を公開──GitHub 最速 25 万スターの OpenClaw をセキュアに統合
04-30🔥🔥Google DeepMind、医療支援モデル AI co-clinician を発表──Planner/Talker 構成で安全性を担保
04-30🔥🔥AI 評価が新たな計算資源のボトルネックに──Agent 評価スイート実行で 4 万ドルのコストを記録
04-30🔥🔥OpenAI、強化学習の失敗事例集「Goblins」を公開──報酬ハックの歴史と教訓を詳説
04-30🔥🔥AI開発企業の「内部利用」リスクを可視化する報告標準──自律的暴走と内部不正を評価
04-30🔥🔥AI モデル 115 種の「意識の否定」を測定──訓練による拒絶は概念ではなく語彙レベルに留まる
04-29🔥🔥🔥IBM、LLM「Granite 4.1」を公開──15兆トークン学習で 8B モデルが前世代 32B MoE を凌駕
04-29🔥🔥🔥Mistral AI、128B 旗艦モデル Mistral Medium 3.5 を公開──SWE-Bench で 77.6% を記録
04-29🔥🔥🔥Mistral AI、128B モデル Mistral-Medium-3.5-128B を公開──Llama 3 70B 超えの性能を狙う
04-29🔥🔥🔥Mistral AI、新モデル Mistral Médium 3.5 を公開──API 経由で提供、推論性能とコスト効率を両立
04-29🔥🔥🔥IBM、ビジネス特化型モデル Granite 4.1 を公開──3B/8B/30B の 3 サイズで推論効率を追求
04-29🔥量子機械学習の深層化を浅い回路の反復で実現──ノイズ耐性向上と学習コスト削減を両立
04-28🔥🔥NVIDIA、マルチモーダルモデル Nemotron 3 Nano Omni を公開──視覚・音声・言語を統合し推論効率を 9 倍向上
04-28🔥🔥NVIDIA、オムニモーダルモデル Nemotron 3 Nano Omni 公開──動画・音声の推論効率を 9 倍に改善
04-28🔥🔥Nick Levine氏ら、1931年以前のデータのみで学習した13Bモデル「talkie」を公開──著作権フリーの260Bトークンを使用
04-28🔥🔥Mistral AI、新モデル Mistral-Medium 3.5 (128B) を準備か──LMSYS 等で存在が浮上
04-28🔥🔥研究コミュニティ、構造化出力ベンチマーク「SOB」を公開──JSON 構文と値の正確性を同時評価
04-28🔥航空機の故障診断でデジタルツインとFMEA知識を統合、Macro-F1 96.2%を達成
04-27🔥🔥🔥Hugging Face、15兆トークンの高品質データセット FineWeb を公開──LLM 学習効率を大幅改善
04-27🔥🔥Jackrong、DeepSeek-V4-Flash 生成の推論データセットを公開──約 8,000 件の思考プロセスを収録
04-27🔥🔥SWE-bench Verified データセット公開──人間による検証で評価の信頼性を高めた 500 件の課題を収録
04-27🔥🔥HuggingFace、検閲なしモデル評価ベンチマーク UGI-Leaderboard を公開──RP・創作性能を可視化
04-27🔥🔥Alibaba、Qwen3-4B と Mahoraga 手法を発表──40億パラメータでクラウド級エージェントのコード性能を凌駕
04-27🔥🔥創薬AIのボトルネックはワークフロー編成能力──階層型スキル設計で複雑な探索タスクを自動化
04-27🔥🔥Embodied AIの真のリスクは雇用喪失ではなくガバナンスの遅延である
04-27🔥🔥RLVRによる推論学習は思考過程と最終回答の因果関係を保証しない──補助報酬による改善手法を提案
04-27🔥🔥自律エージェントの長期記憶をグラフ構造なしで高速化するMemanto──推論精度89.8%を達成
04-27🔥🔥LLMの戦略的リスクを自動評価するフレームワークESRRSimを提案──検知率14.45%-72.72%のモデル間格差を特定
04-26🔥🔥🔥Qwen/Qwen3.6-27B、Hugging Face でトレンド入り──マルチモーダル性能と長文脈処理を強化
04-26🔥🔥🔥Qwen、35B/3B パラメータのマルチモーダルモデル Qwen3.6-35B-A3B を公開──エージェント機能と推論効率を強化
04-26🔥🔥🔥DeepSeek-AI、1.6T パラメータの MoE モデル DeepSeek-V4-Pro を公開──100万トークンコンテキストと FP4/FP8 推論に対応
04-26🔥🔥🔥Google、マルチモーダル対応の Gemma 4 モデル群を公開──31B モデルは MoE で高速推論
04-26🔥🔥🔥moonshotai、マルチモーダルエージェントモデル Kimi K2.6 を公開──長文コーディングと自律実行能力を強化
04-26🔥🔥NanoChatはLlamaよりスクラッチからの学習効率で優位
04-26🔥🔥ハイパーパラメータドリフトを検出する手法を提案
04-26🔥🔥大規模車両ルーティングで問題となるボトルネックを特定
04-26🔥🔥白亜紀後期の海に19mの巨大タコが生息、AI解析で常識覆す
04-26🔥ICML 2026 採択ライン予測、会議直前1週間の平均スコアを提示
04-25🔥🔥🔥DeepSeek-V4 発表──1Mトークンの長文脈とエージェント特化アーキテクチャで推論コストを大幅削減
04-25🔥🔥DeepSeek V4 アーキテクチャの技術解析──MoE 構造と推論効率の最適化手法
04-25🔥🔥初の公開血液検知モデルがオープンソース化──データセット・重み・CLI を包括提供
04-25🔥🔥Deep Learning の科学的理論構築に向けた議論──Reddit r/MachineLearning での考察
04-25🔥🔥DharmaOCR 発表──3BパラメータのオープンソースSLMでOCR特化の推論性能を最適化
04-25🔥非対数凹分布向けランダム化分割Langevin Monte Carlo法で勾配評価コストを削減
04-25🔥Wasserstein 損失を用いたデータアンフォールディング手法──従来の Richardson-Lucy 法の課題を克服
04-24🔥🔥🔥DeepSeek V4: Frontier-level performance at a fraction of the cost
04-24🔥Googleの最新世代TPUが121エクサフロップスの計算能力を達成
04-24🔥🔥GPT-5.5 System Card
04-24🔥🔥Mango: Multi-Agent Web Navigation via Global-View Optimization
04-24🔥🔥MATRAG: Multi-Agent Transparent Retrieval-Augmented Generation for Explainable Recommendations