🧠Research🔥🔥

JetBrains、12B MoE モデル Mellum2 を公開──推論速度 2 倍以上でコード・テキスト処理を高速化

トークンあたり 2.5B の活性化により、IDE 内の補完やエージェントのルーティングなど、低レイテンシが必須なソフトウェア開発工程を Apache 2.0 で効率化する。

リリース: 2026-06-01 · 読了 3
何が起きた
  • JetBrains が開発した 12B パラメータの Mixture-of-Experts (MoE) モデルで、トークンあたりの活性化パラメータを 2.5B に抑えている。

  • 同規模のオープンモデルと比較して 2 倍以上の推論速度を達成しており、高スループットなプロダクション環境への適用を主眼に置く。

  • Apache 2.0 ライセンスで公開され、Hugging Face からモデルウェイトのダウンロードおよび商用利用が可能。

  • コード生成や数学、推論などのベンチマークにおいて、同等サイズの既存モデルと競合する性能を維持しつつ、テキストとコードに特化している。

なぜ重要
  • 「何でもできる巨大モデル」ではなく、IDE 補完や RAG の前処理といった「高頻度・低遅延」が求められる特定タスクの運用コストを劇的に下げられる。

  • Apache 2.0 かつ軽量なため、機密コードを扱う企業が自社インフラ内で SOTA 級のコード支援モデルを安価に運用する現実的な選択肢になる。

👁️ 開発者

IDE 拡張機能や社内エージェントを開発するエンジニアは、これまで GPT-4o-mini 等で行っていたルーティングや要約タスクを、Mellum2 のローカルデプロイに置き換えることでレイテンシを半減できる。

🇯🇵 日本

[国内 AI ツール開発ベンダー] や [大手製造業の社内 DX 部門] は、プロプライエタリなコード資産を外部 API に送ることなく、オンプレミス環境で高速なコード生成・修正パイプラインを構築する基盤として活用できる。