antirez、推論サーバー ds4.c を公開──DeepSeek V4 Flash を 128GB Mac で高速動作

Redis 開発者の antirez 氏が開発。DeepSeek V4 Flash に特化し、SSD を KV キャッシュの永続化先として活用することで、100 万トークンの超長文脈をローカルの Mac 環境で実用的な速度で動作させる。

リリース: 2026-05-07 · 読了 3
何が起きた
  • DeepSeek V4 Flash (284B) を 2-bit 量子化し、128GB RAM の MacBook Pro で動作可能にした。

  • M3 Ultra 環境で 1.1 万トークンのプレフィル速度 468 t/s、生成速度 27.39 t/s を記録した。

  • 100 万トークンのコンテキスト窓に対応し、KV キャッシュを SSD へ永続化する機能を独自実装した。

  • GPT-5.5 の支援を受けて開発され、llama.cpp に依存しない独自の Metal グラフ実行エンジンを採用している。

なぜ重要
  • KV キャッシュを RAM ではなく SSD に逃がす設計は、ローカル RAG のメモリ制約を根本から変える。

  • 特定モデルに特化した軽量な推論実装は、汎用ランナーよりも高い最適化効率を求めるエッジ AI 開発のベンチマークになる。

👁️ 開発者

Mac Studio 等のハイエンド機を持つ開発者は、商用 API を介さず 284B 規模のモデルを実用速度で叩けるようになり、機密データのローカル解析が加速する。

🇯🇵 日本

国内の [AI スタートアップ] や [製造業の RAG 構築チーム] は、クラウドコストを抑えつつ 284B 規模のモデルをセキュアなローカル環境で運用する際の構成案として、SSD 活用型の推論手法を検討すべきである。