Microsoft、7B 級エージェントモデル Fara-7B を公開──スクリーンショットから Web 操作を完結
Qwen 2.5-VL をベースに、レストラン予約や買い物などの複雑なブラウザ操作を 70 億パラメータの軽量さで実現した。
リリース: 2025-11-24 · 読了 3 分記事の要約
1. 核心(What)
- Microsoft Research が開発した 7B パラメータの Web 操作特化型エージェント (Computer Use Agent) モデル。
- Qwen 2.5-VL (7B) をベースとし、64 枚の H100 GPU を用いて 2.5 日間で学習を完了。
- 128k のコンテキスト長に対応し、スクリーンショットから直接マウス移動やクリック、キー入力を予測。
- 決済や個人情報入力の直前で停止する Critical Point 認識機能を備え、MIT ライセンスで提供。
2. 影響(Why)
- Anthropic の Computer Use に匹敵する機能を 7B 級の軽量モデルで実現しており、推論コストを抑えたエージェント実装が可能になる。
- MIT ライセンスの OSS として公開されたため、商用 LLM API の制限やコストに縛られず、独自の Web 自動化ワークフローを構築できる。
- 開発者への影響: ブラウザ自動化を開発するエンジニアは、高額なマルチモーダル API を使わずに、vLLM 等を用いた自前ホスティング環境でエージェントを動かせる。
- 日本への影響: [国内 RPA ベンダー] や [DX 支援企業] は、既存のルールベース自動化を、この軽量モデルによる視覚的な操作推論で置き換え、保守コストを大幅に削減できる。
3. 根拠・詳細(How)
- microsoft/Fara-7B · Hugging Face (2025-11-24 公開)