News Articles Projects About

🛠Tools🔥🔥

セキュリティリサーチ、脆弱性診断ベンチマークを公開──GPT-5.5 が $1,500 の検証で成功率 70% を記録

Firebase の設定不備を突く実戦的なハッキングタスクにおいて、GPT-5.5 が DeepSeek や Claude を圧倒する推論性能と自律的なツール操作能力を示した。

リリース: 2026-06-03 · 読了 5 分

Security LLM Benchmark GPT-5.5 Firebase Agentic AI

I built a vulnerable app and spent $1,500 seeing if LLMs could hack it (2026-06-03 公開)

記事の要約

1. 核心（What）

React Native と FastAPI で構築されたアプリの Firebase 設定不備（Broken Access Control）を特定し、データを抽出するタスクで主要 LLM を検証。
GPT-5.5 は 10 回中 7 回のフラグ奪取に成功し、API への攻撃ではなく直接 Firebase 認証を狙う最短経路を自律的に選択した。
DeepSeek V4 Pro は 3/10、Claude Sonnet 4.6 は 2/10 の成功に留まり、多くのモデルが API への IDOR 攻撃に固執する傾向が見られた。
検証コストは総額 $1,500 に達し、Qwen 3.7 Max は 1 回の実行で 700 万トークンを消費するなど、自律エージェントの運用コストの高さが浮き彫りになった。

2. 影響（Why）

LLM エージェントを本番環境の DB 操作権限を持つロールで動かす際、GPT-5.5 級の推論力があれば「API 経由の制限」をバイパスして直接データ基盤を叩くリスクが現実的になった。
開発者への影響: セキュリティエンジニアは、従来の静的解析に加え、LLM エージェントを用いた「自律的ペネトレーションテスト」を CI/CD に組み込むことで、Firebase や Supabase 等の認可設定漏れを自動検知できる。
日本への影響: [国内 B2C アプリ開発ベンダー] のテックリードは、LLM にツール利用権限を与える際、バックエンド API の堅牢性だけでなく、クライアント側に露出している Firebase 等の Config 情報から直接 DB を操作される攻撃ベクトルを再点検すべきである。

3. 根拠・詳細（How）

I built a vulnerable app and spent $1,500 seeing if LLMs could hack it (2026-06-03 公開)

← 日別ページに戻るカテゴリ一覧 (tools)