🧠Research🔥🔥🔥

OpenBMB、エッジ特化 MLLM「MiniCPM-V 4.6」を公開──0.8B 規模で 2B 級の視覚理解を実現

視覚エンコードの計算量を 50% 削減しつつ、iOS/Android へのネイティブ実装と OCR 性能の両立を 10 億パラメータ未満で達成した。

リリース: 2026-05-17 · 読了 3
何が起きた
  • Qwen3.5-0.8B と SigLIP2-400M をベースとし、視覚トークンの 4倍/16倍 混合圧縮により推論効率を最適化。

  • Artificial Analysis Intelligence Index で 13 点を記録し、43倍のトークンコストを要する Qwen3.5-0.8B-Thinking を凌駕。

  • iOS、Android、HarmonyOS の 3 プラットフォーム向けにエッジ適応コードを完全 OSS 化して提供。

  • vLLM、llama.cpp、Ollama などの主要推論フレームワークに対応し、GGUF や AWQ 形式の量子化済みモデルも配布。

なぜ重要
  • 1B 未満のモデルで実用的な OCR や動画理解が可能になったことで、クラウド API を介さない「完全ローカルなモバイル AI アプリ」の構築が現実的になる。

👁️ 開発者

vLLM や llama.cpp を含む広範なエコシステムに対応しているため、開発者は特別なインフラを構築せずとも、手元の MacBook やエッジ端末で即座にマルチモーダル RAG を試作できる。

🇯🇵 日本

[国内 モバイルアプリ開発] 規模の事業者は、通信コストやプライバシーの懸念から見送っていた画像解析機能を、オンデバイス処理としてアプリに標準搭載できる。