Unsloth、LLM モデル Qwen3.6-27B の GGUF 版を公開──262K トークンの長文脈と MTP に対応
27B パラメータの Qwen3.6 が vLLM や SGLang で利用可能になり、推論時の思考プロセス保持と MTP による高速化を実現した。
リリース: 2026-04-23 · 読了 3 分何が起きた
モデルパラメータ数は 27B、コンテキスト長はネイティブで 262,144 トークン
推論フレームワークは vLLM v0.19.0 以降、SGLang v0.5.10 以降を推奨
MTP(Multi-Token Prediction)をサポートし、推論時の思考プロセス(<think>タグ)の保持が可能
推論時の思考プロセス保持により、複雑なリポジトリレベルのコーディングタスク精度を向上
なぜ重要
27B クラスで 262K トークンの長文脈を扱えるため、VPC 内での大規模なコードベース解析や RAG 実装のハードルが下がる。
MTP による推論効率化が実用レベルに達しており、API 経由で GPT-4 級の reasoning をローカル環境で代替するコストメリットが明確になった。
👁️ 開発者
vLLM や SGLang を利用する開発者は、既存の推論パイプラインに MTP 設定を追加するだけで、レイテンシを維持しつつ複雑なエージェント処理をローカルで完結させることが可能になる。
🇯🇵 日本
国内の Vertical SaaS 企業や AI 開発ベンダーは、これまで外部 API に依存していた複雑な推論タスクを、この 27B モデルとオンプレミス GPU 環境へ移行することで、推論コストとデータプライバシーの要件を同時に解消できる。