セキュリティリサーチ、脆弱性診断ベンチマークを公開──GPT-5.5 が $1,500 の検証で成功率 70% を記録

Firebase の設定不備を突く実戦的なハッキングタスクにおいて、GPT-5.5 が DeepSeek や Claude を圧倒する推論性能と自律的なツール操作能力を示した。

リリース: 2026-06-03 · 読了 5
何が起きた
  • React Native と FastAPI で構築されたアプリの Firebase 設定不備(Broken Access Control)を特定し、データを抽出するタスクで主要 LLM を検証。

  • GPT-5.5 は 10 回中 7 回のフラグ奪取に成功し、API への攻撃ではなく直接 Firebase 認証を狙う最短経路を自律的に選択した。

  • DeepSeek V4 Pro は 3/10、Claude Sonnet 4.6 は 2/10 の成功に留まり、多くのモデルが API への IDOR 攻撃に固執する傾向が見られた。

  • 検証コストは総額 $1,500 に達し、Qwen 3.7 Max は 1 回の実行で 700 万トークンを消費するなど、自律エージェントの運用コストの高さが浮き彫りになった。

なぜ重要
  • LLM エージェントを本番環境の DB 操作権限を持つロールで動かす際、GPT-5.5 級の推論力があれば「API 経由の制限」をバイパスして直接データ基盤を叩くリスクが現実的になった。

👁️ 開発者

セキュリティエンジニアは、従来の静的解析に加え、LLM エージェントを用いた「自律的ペネトレーションテスト」を CI/CD に組み込むことで、Firebase や Supabase 等の認可設定漏れを自動検知できる。

🇯🇵 日本

[国内 B2C アプリ開発ベンダー] のテックリードは、LLM にツール利用権限を与える際、バックエンド API の堅牢性だけでなく、クライアント側に露出している Firebase 等の Config 情報から直接 DB を操作される攻撃ベクトルを再点検すべきである。