Google、モデル Gemini 3.5 Flash を公開──推論コストを従来比最大 6 倍に引き上げつつ全製品に統合
入力 100 万トークン対応の汎用モデルとして Gemini アプリや開発者プラットフォームへ即時投入し、推論単価を上位モデル Pro に肉薄する水準まで引き上げた。
リリース: 2026-05-19 · 読了 3 分何が起きた
Gemini 3.5 Flash の価格は入力 $1.50/1M token、出力 $9/1M token
従来モデル比で Gemini 3 Flash Preview の 3 倍、Gemini 3.1 Flash-Lite の 6 倍の価格設定
コンテキストウィンドウは 1,048,576 トークン、知識カットオフは 2025 年 1 月
Artificial Analysis のベンチマーク実行コストは $1,551.60 で、Gemini 3.1 Pro Preview を上回る
なぜ重要
Flash シリーズの安価な推論という前提が崩れ、主要 3 社すべてが API 利益率を優先するフェーズへ移行した。
高コスト化に伴い、社内 RAG やエージェント実装において「安価なモデルで済ませる」戦略は再考が必要。
👁️ 開発者
Gemini API を利用する開発者は、推論コストが従前の数倍に跳ね上がるため、プロンプトのトークン効率化と、タスクに応じたモデル選択(Pro と Flash の使い分け)の再設計を直ちに実施する必要がある。
🇯🇵 日本
Gemini API を商用プロダクトに組み込んでいる国内の Vertical SaaS や AI エージェント開発企業は、Q3 以降のユニットエコノミクスを維持するため、推論キャッシュの活用や他社モデルへの乗り換えを含めたコスト構造の再評価が必須となる。