エージェント SDK Statewright ── 状態遷移図で AI エージェントのツール利用を制御し信頼性を向上
AI エージェントに「状態」の概念を導入し、フェーズごとに使用可能なツールを制限することで、13B 級の小規模モデルでも SWE-bench 完答を可能にする。
リリース: 2026-05-12 · 読了 3 分何が起きた
Statewright は、AI エージェントの動作を状態遷移図(State Machine)で定義し、各フェーズで使用可能なツールを強制的に制限するライブラリ。
Claude Code, Cursor, Pi などの主要なエージェント環境に対応し、不適切なツール呼び出しをシステム側で拒絶・誘導する。
SWE-bench のサブセット評価において、13.8GB (約 20B) 規模の OSS モデルの成功率を 2/10 から 10/10 へと大幅に改善した。
モデルの巨大化やプロンプトの長文化に頼らず、推論空間を絞り込むことで「読み取りループ」などの無限実行を防止する。
なぜ重要
「何でもできる」エージェントが陥る思考の迷走を、エンジニアがワークフローとして定義することで、実用的な精度まで引き上げられる。
13B 規模のモデルでも、推論空間を状態遷移で絞り込めば SWE-bench 完答レベルの性能を発揮できるため、推論コストを 1/10 以下に抑える選択肢が生まれる。
👁️ 開発者
AI エージェント開発者は、複雑なタスクを「計画」「実装」「テスト」などの状態に分解し、各状態でのツール権限を最小化することで、ハルシネーションや無限ループを構造的に排除できる。
🇯🇵 日本
国内の受託開発や SaaS 開発において、特定業務(例: 経理処理やコード修正)の自動化エージェントを構築する際、高コストな GPT-4 級に頼らず Llama 3 等の OSS モデルで安定稼働させるための有力な設計パターンとなる。