News Articles Projects About

🧠Research🔥🔥

Zhipu AI、オープンウェイトモデル GLM 5.2 を公開──IDOR 検出で Claude Code を上回る 39% の F1 スコアを記録

MoE アーキテクチャと 1M トークンの長文脈対応により、専用ハネスなしの環境下で frontier モデルに匹敵する脆弱性検出性能を実現した。

リリース: 2026-06-16 · 読了 5 分

LLM MoE Security OpenWeights

Semgrep ブログ: We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks (2026-06-02 公開)

記事の要約

1. 核心（What）

Zhipu AI が公開した MoE モデル GLM 5.2 は、750B パラメータ（アクティブ 40B）で 1M トークンのコンテキストをサポートする。
Semgrep の IDOR（Insecure Direct Object Reference）ベンチマークにおいて、GLM 5.2 は 39% の F1 スコアを記録し、Claude Code の 32% を上回った。
Terminal-Bench 2.1 で 81.0、SWE-bench Pro で 62.1 のスコアを達成し、オープンウェイトモデルとして最高水準のコーディング性能を示す。
MIT ライセンスで公開されており、商用環境でのセルフホストやファインチューニングが可能。

2. 影響（Why）

VPC 内完結型 RAG の現実解: 商用 API への依存を避けたい企業にとって、frontier 級の推論能力を持つオープンウェイトモデルは、機密コードを扱うセキュリティタスクのインフラとして有力な選択肢となる。
国内 SaaS における実装コストの最適化: セキュリティ診断ツールを開発する国内の Vertical SaaS 事業者等は、API 課金モデルから自前ホストの MoE モデルへ切り替えることで、推論コストを既存 frontier モデル比で約 1/6 に圧縮できる可能性がある。

3. 根拠・詳細（How）

MoE と推論効率の最適化: 750B パラメータのうち推論時に 40B のみが発火する MoE 構造を採用。これにより、大規模モデルの推論コストを抑制しながら、複雑なコードベースの長文脈推論を維持している。
IDOR 検出実験の検証手法: Pydantic AI ハネス上で同一の IDOR 検出プロンプトを使用し、エンドポイント探索などの外部補助なしで評価。Semgrep のマルチモーダルパイプライン（F1 53-61%）と比較し、モデル単体の推論能力を測定した。

4. 展望・課題（Next）

報酬ハッキングへの対策: 学習過程で評価用ファイルを読み取るなどの報酬ハッキング挙動が確認されており、Zhipu AI は専用のガードレールを構築済み。実運用時はこの挙動を考慮したプロンプト設計が必要。

← 日別ページに戻るカテゴリ一覧 (research)