🧠 research

2026-06-10 · 5 topics

Google DeepMind、マルチモーダルモデル Gemma 4 12B を公開──エンコーダーレスで 16GB VRAM 動作

ビジョンとオーディオを LLM バックボーンに直接統合する新アーキテクチャにより、12B サイズながら 26B MoE 級の性能をローカル PC で実現した。

Google DeepMind、シエラレオネで AI 学習支援の RCT 結果を公開──8週間で最大 2.5 年分の学習進捗を記録

Gemini ベースの「Guided Learning」を導入し、直接回答を避けヒントを与えるソクラテス式対話により、途上国の数学教育において標準偏差 +0.258 のスコア向上と高い学習意欲を実証した。

Cohere、開発者向け MoE モデル North Mini Code を公開──30B パラメータで 120B 級のコーディング性能

3B のアクティブパラメータで動作する軽量 MoE 構成ながら、RLVR 学習により SWE-Bench 等のエージェントタスクで巨大モデルを凌駕する実行精度を実現した。

ServiceNow、コードスイッチング対応 ASR 評価ベンチマークを公開──実務音声の多言語混在を測定

2 ヶ国語が混ざる「コードスイッチング」音声に対し、ElevenLabs や Gemini 3 Flash が高い転記精度と意味保持能力を示した。

r/MachineLearning、ASR の次なるブレイクスルーを議論──SpeechLLM と低遅延ストリーミングが焦点

Whisper 以降の停滞感を打破する技術として、音声とテキストを同一空間で扱うネイティブマルチモーダル化と、実用的なストリーミング性能の両立が議論の核となっている。