🧠Research🔥🔥🔥

OpenBMB、エッジ特化 MLLM「MiniCPM-V 4.6」を公開──0.8B 規模で 2B 級の視覚理解を実現

リリース: 2026-05-17 · 読了 3 分

記事の要約

1. 核心（What）

Qwen3.5-0.8B と SigLIP2-400M をベースとし、視覚トークンの 4倍/16倍混合圧縮により推論効率を最適化。
Artificial Analysis Intelligence Index で 13 点を記録し、43倍のトークンコストを要する Qwen3.5-0.8B-Thinking を凌駕。
iOS、Android、HarmonyOS の 3 プラットフォーム向けにエッジ適応コードを完全 OSS 化して提供。
vLLM、llama.cpp、Ollama などの主要推論フレームワークに対応し、GGUF や AWQ 形式の量子化済みモデルも配布。

1B 未満のモデルで実用的な OCR や動画理解が可能になったことで、クラウド API を介さない「完全ローカルなモバイル AI アプリ」の構築が現実的になる。
開発者への影響: vLLM や llama.cpp を含む広範なエコシステムに対応しているため、開発者は特別なインフラを構築せずとも、手元の MacBook やエッジ端末で即座にマルチモーダル RAG を試作できる。
日本への影響: [国内モバイルアプリ開発] 規模の事業者は、通信コストやプライバシーの懸念から見送っていた画像解析機能を、オンデバイス処理としてアプリに標準搭載できる。