Microsoft、7B 級エージェントモデル Fara-7B を公開──スクリーンショットから Web 操作を完結
Qwen 2.5-VL をベースに、レストラン予約や買い物などの複雑なブラウザ操作を 70 億パラメータの軽量さで実現した。
リリース: 2025-11-24 · 読了 3 分何が起きた
Microsoft Research が開発した 7B パラメータの Web 操作特化型エージェント (Computer Use Agent) モデル。
Qwen 2.5-VL (7B) をベースとし、64 枚の H100 GPU を用いて 2.5 日間で学習を完了。
128k のコンテキスト長に対応し、スクリーンショットから直接マウス移動やクリック、キー入力を予測。
決済や個人情報入力の直前で停止する Critical Point 認識機能を備え、MIT ライセンスで提供。
なぜ重要
Anthropic の Computer Use に匹敵する機能を 7B 級の軽量モデルで実現しており、推論コストを抑えたエージェント実装が可能になる。
MIT ライセンスの OSS として公開されたため、商用 LLM API の制限やコストに縛られず、独自の Web 自動化ワークフローを構築できる。
👁️ 開発者
ブラウザ自動化を開発するエンジニアは、高額なマルチモーダル API を使わずに、vLLM 等を用いた自前ホスティング環境でエージェントを動かせる。
🇯🇵 日本
[国内 RPA ベンダー] や [DX 支援企業] は、既存のルールベース自動化を、この軽量モデルによる視覚的な操作推論で置き換え、保守コストを大幅に削減できる。