エージェント SDK Statewright ── 状態遷移図で AI エージェントのツール利用を制御し信頼性を向上

AI エージェントに「状態」の概念を導入し、フェーズごとに使用可能なツールを制限することで、13B 級の小規模モデルでも SWE-bench 完答を可能にする。

リリース: 2026-05-12 · 読了 3
何が起きた
  • Statewright は、AI エージェントの動作を状態遷移図(State Machine)で定義し、各フェーズで使用可能なツールを強制的に制限するライブラリ。

  • Claude Code, Cursor, Pi などの主要なエージェント環境に対応し、不適切なツール呼び出しをシステム側で拒絶・誘導する。

  • SWE-bench のサブセット評価において、13.8GB (約 20B) 規模の OSS モデルの成功率を 2/10 から 10/10 へと大幅に改善した。

  • モデルの巨大化やプロンプトの長文化に頼らず、推論空間を絞り込むことで「読み取りループ」などの無限実行を防止する。

なぜ重要
  • 「何でもできる」エージェントが陥る思考の迷走を、エンジニアがワークフローとして定義することで、実用的な精度まで引き上げられる。

  • 13B 規模のモデルでも、推論空間を状態遷移で絞り込めば SWE-bench 完答レベルの性能を発揮できるため、推論コストを 1/10 以下に抑える選択肢が生まれる。

👁️ 開発者

AI エージェント開発者は、複雑なタスクを「計画」「実装」「テスト」などの状態に分解し、各状態でのツール権限を最小化することで、ハルシネーションや無限ループを構造的に排除できる。

🇯🇵 日本

国内の受託開発や SaaS 開発において、特定業務(例: 経理処理やコード修正)の自動化エージェントを構築する際、高コストな GPT-4 級に頼らず Llama 3 等の OSS モデルで安定稼働させるための有力な設計パターンとなる。