2026年5月5日 (火)

14件 · 52分
今日の核は推論コストの劇的な圧縮と、それに伴うエージェント開発の民主化にある。aattaranが公開したClaude Code互換プロキシdeepclaudeは、DeepSeek V4 Proを経由させることで推論コストを1/17に引き下げた。一方で、inclusionAIのLing-2.6-flashが7.4Bパラメータで340 tokens/sという圧倒的なスループットを叩き出し、NVIDIAのNemotron-3 Nano Omniが動画・音声・テキストのマルチモーダル推論を31B MoEで統合した事実は、推論の軽量化と高機能化が同時並行で進んでいることを意味する。周辺ではz-labのDFlashによる投機的デコード手法が並列ドラフトの新たな選択肢として加わっており、既存のエージェントパイプラインを低コストなモデルに切り替える検証を今すぐ始めておきたい。ロボット分野でのFamiliar発表など物理層の動きも無視できないが、まずはLLMの運用コスト構造が刷新されたと見ていい。
Since yesterday
New 14
Ongoing 0
Ended 11
一部カテゴリが未達(14 件)