OpenBMB、エッジ特化 MLLM「MiniCPM-V 4.6」を公開──0.8B 規模で 2B 級の視覚理解を実現
視覚エンコードの計算量を 50% 削減しつつ、iOS/Android へのネイティブ実装と OCR 性能の両立を 10 億パラメータ未満で達成した。
リリース: 2026-05-17 · 読了 3 分何が起きた
Qwen3.5-0.8B と SigLIP2-400M をベースとし、視覚トークンの 4倍/16倍 混合圧縮により推論効率を最適化。
Artificial Analysis Intelligence Index で 13 点を記録し、43倍のトークンコストを要する Qwen3.5-0.8B-Thinking を凌駕。
iOS、Android、HarmonyOS の 3 プラットフォーム向けにエッジ適応コードを完全 OSS 化して提供。
vLLM、llama.cpp、Ollama などの主要推論フレームワークに対応し、GGUF や AWQ 形式の量子化済みモデルも配布。
なぜ重要
1B 未満のモデルで実用的な OCR や動画理解が可能になったことで、クラウド API を介さない「完全ローカルなモバイル AI アプリ」の構築が現実的になる。
👁️ 開発者
vLLM や llama.cpp を含む広範なエコシステムに対応しているため、開発者は特別なインフラを構築せずとも、手元の MacBook やエッジ端末で即座にマルチモーダル RAG を試作できる。
🇯🇵 日本
[国内 モバイルアプリ開発] 規模の事業者は、通信コストやプライバシーの懸念から見送っていた画像解析機能を、オンデバイス処理としてアプリに標準搭載できる。