🧠 research

2026-05-05 · 5 topics

inclusionAI、エージェント特化モデル Ling-2.6-flash を公開──7.4B Active パラメータで 340 tokens/s の高速推論を実現

ハイブリッド線形アテンションと MoE を組み合わせ、エージェント実行時のトークン消費とコストを抑えつつ SOTA 級の推論性能を両立した。

NVIDIA、マルチモーダル推論モデル Nemotron-3 Nano Omni を公開──動画・音声・テキストを 31B MoE で統合理解

動画・音声・画像・テキストの 4 モダリティを 256k トークンの長文脈で処理し、エッジデバイスでの高度な推論や GUI オートメーションを可能にする 31B MoE モデル。

z-lab、Qwen3.6-27B 用投機的デコードモデル DFlash を公開──ブロック拡散で並列ドラフトを実現

軽量なブロック拡散モデルを投機的デコードのドラフトに採用し、Qwen3.6-27B において最大 16 トークンの並列生成と推論高速化を両立した。

OpenAI、Voice AI の低遅延配信技術を公開──Realtime API の背後にあるインフラ最適化手法

人間の会話と同等の応答速度を実現するため、WebRTC の採用や推論スタックの垂直統合により、グローバル規模での低遅延ストリーミングを可能にした。

評価ベンチマーク AutoBe 公開──構造化ハーネスによりバックエンド生成における商用・ローカルモデルの格差が縮小

バックエンドコード生成に特化した評価フレームワーク AutoBe を導入し、適切な制約下では Llama 3 等のローカルモデルが GPT-4 級の性能に肉薄することを示した。