Moonshot AI、モデル Kimi K2.6 を公開──コーディング競技で GPT-5.5 や Claude を抑え首位
リアルタイムの意思決定と TCP プロトコル実装が求められる動的パズル競技において、中国のオープンウェイトモデルが米国勢のフロンティアモデルを凌駕した。
リリース: 2026-04-30 · 読了 3 分Moonshot AI のオープンウェイトモデル Kimi K2.6 が、AI Coding Contest (Word Gem Puzzle) で GPT-5.5 や Claude Opus 4.7 を抑え優勝した。
競技は 10 秒の制限時間内に TCP 接続を介してスライディングパズルを解く形式で、Kimi は 30x30 の大規模グリッドで 77 点の最高スコアを記録した。
上位 2 モデルは Kimi K2.6 と Xiaomi の MiMo V2-Pro であり、米国勢のフロンティアモデル(GPT-5.5 は 3 位、Claude は 5 位)を中国勢が上回った。
DeepSeek はプロトコル形式エラーで 0 点、Muse は減点ルールを理解できず大量の短単語を請求した結果 -15,309 点と、モデル間で指示追従性に極端な差が出た。
静的なベンチマークではなく、リアルタイムの意思決定とコード実行が求められる動的環境において、オープンモデルが商用 SOTA モデルを凌駕する実力を示した。
安全性チューニングによる保守性が、特定の攻撃的な最適化が必要なタスクにおいて米国勢モデルの足かせとなっている現状が浮き彫りになった。
エージェント開発者は、高価な商用 API に依存せずとも、Kimi K2.6 のようなオープンウェイトモデルをローカルや VPC 内で運用することで、同等以上のリアルタイム制御性能を確保できる。特に「プロトコルに従い、時間内にコードを完遂する」能力は、自律型システムの実装において商用 API 以外の有力な選択肢となる。
国内の自律型エージェント開発チーム(特に物流や製造現場のリアルタイム制御を扱うスタートアップ規模)は、安全性重視で動作が保守的になりがちな米国製 API よりも、実行力に振り切った Kimi K2.6 等の中国製オープンモデルを評価対象に加えることで、タスク完遂率を 2-3 割改善できる。