今日の主役は、コーディングや医療診断といった高難度ドメインにおける SOTA の塗り替えと、それに伴う実効性能の再定義にある。Moonshot AI の Kimi K2.6 が競技プログラミングで GPT-5.5 や Claude を抑えて首位に立ち、一方で OpenAI o1 は救急外来の初診正解率 67% で医師を凌駕した。汎用的な知能競争から、特定領域で「人間や既存 SOTA を実効的に超える」実利的な性能競争へ軸足が移ったと見ていい。周辺では、学習レシピの自動進化でコストを 2 割削減する議論や、エージェント基盤 Mendral による Harness 分離の設計指針が公開されている。インフラコストの最適化とセキュリティの両立を急ぐ PM やリードは、これらの実装詳細を読んでおきたい。