xAI、Grok 4.3 を公開──NYT Connections ベンチマークで 67.5 点を記録し低コスト化
推論コストを削減した一方で、複雑なパズル解読能力が Grok 4.20 の 93.4 点から大幅に低下しており、モデルの軽量化と性能のトレードオフが鮮明になった。
リリース: 2026-05-02 · 読了 2 分記事の要約
1. 核心(What)
- Grok 4.3 が Extended NYT Connections Benchmark で 67.5 点を記録した
- 前世代の Grok 4.20 (0309) は同ベンチマークで 93.4 点を記録していた
- Grok 4.3 は Grok 4.20 よりも低い推論コストで動作するよう設計されている
2. 影響(Why)
- 最新のマイナーアップデートが全性能の向上を意味せず、コスト最適化による「性能劣化」が特定のタスクで発生する実例を示している。
- パズル解読のような高度な論理推論が必要なタスクにおいて、軽量化モデルの限界を評価する基準となる。
- 開発者への影響: Grok API を利用する開発者は、論理パズルや複雑な関係性抽出を伴うワークフローにおいて、Grok 4.3 への移行で精度が 25% 以上低下するリスクを考慮し、旧モデルとの併用やプロンプトの再調整が必要になる。
- 日本への影響: 国内の AI ニュース要約やコンテンツ生成を行うスタートアップ(特にエンタメ・パズル系アプリ開発者)は、コスト優先で Grok 4.3 を採用すると、日本語の文脈理解や論理整合性でも同様の劣化が起きないか検証を急ぐべきだ。
3. 根拠・詳細(How)
- Reddit r/singularity (2026-05-02 公開)