Kog、推論サーバー Kog を公開──標準データセンター GPU で 3,000 tokens/s の超高速推論を実現
既存の推論エンジンが抱えるカーネル起動オーバーヘッドを解消し、バッチサイズ 1 でメモリ帯域限界に近い推論速度を達成した。
リリース: 2026-05-28 · 読了 3 分何が起きた
バッチサイズ 1 の推論で 3,000 tokens/s を達成
NVIDIA H200 や AMD MI300X 等の標準的なデータセンター GPU をサポート
従来の推論スタックで発生するカーネル起動コスト(1 層あたり数マイクロ秒)を極限まで削減
メモリ帯域利用率(MBU)を最適化し、演算(FLOPS)ではなく帯域がボトルネックとなるデコード処理を高速化
なぜ重要
AI エージェントのループ処理(推論・計画・実行)において、単一リクエストのデコード速度はユーザー体験に直結するボトルネックである。
推論速度が 100 tokens/s から 3,000 tokens/s に向上すれば、5 万トークン規模の複雑なワークフローを数分から数十秒へ短縮できる。
👁️ 開発者
AI エージェントを開発するエンジニアは、vLLM 等の汎用推論エンジンから、レイテンシ最適化を極めた Kog のようなスタックへ切り替えることで、推論のループ速度を物理限界まで引き上げられる。
🇯🇵 日本
国内の自社 LLM 運用や AI エージェント開発を行う中規模 SaaS 事業者は、高価な推論専用チップを導入せずとも、既存のデータセンター GPU 資産を活かして推論コストと応答時間を劇的に改善できる。