🧠Research🔥🔥

Unsloth、LLM モデル Qwen3.6-27B の GGUF 版を公開──262K トークンの長文脈と MTP に対応

27B パラメータの Qwen3.6 が vLLM や SGLang で利用可能になり、推論時の思考プロセス保持と MTP による高速化を実現した。

リリース: 2026-04-23 · 読了 3
何が起きた
  • モデルパラメータ数は 27B、コンテキスト長はネイティブで 262,144 トークン

  • 推論フレームワークは vLLM v0.19.0 以降、SGLang v0.5.10 以降を推奨

  • MTP(Multi-Token Prediction)をサポートし、推論時の思考プロセス(<think>タグ)の保持が可能

  • 推論時の思考プロセス保持により、複雑なリポジトリレベルのコーディングタスク精度を向上

なぜ重要
  • 27B クラスで 262K トークンの長文脈を扱えるため、VPC 内での大規模なコードベース解析や RAG 実装のハードルが下がる。

  • MTP による推論効率化が実用レベルに達しており、API 経由で GPT-4 級の reasoning をローカル環境で代替するコストメリットが明確になった。

👁️ 開発者

vLLM や SGLang を利用する開発者は、既存の推論パイプラインに MTP 設定を追加するだけで、レイテンシを維持しつつ複雑なエージェント処理をローカルで完結させることが可能になる。

🇯🇵 日本

国内の Vertical SaaS 企業や AI 開発ベンダーは、これまで外部 API に依存していた複雑な推論タスクを、この 27B モデルとオンプレミス GPU 環境へ移行することで、推論コストとデータプライバシーの要件を同時に解消できる。