antirez、推論サーバー ds4.c を公開──DeepSeek V4 Flash を 128GB Mac で高速動作
Redis 開発者の antirez 氏が開発。DeepSeek V4 Flash に特化し、SSD を KV キャッシュの永続化先として活用することで、100 万トークンの超長文脈をローカルの Mac 環境で実用的な速度で動作させる。
リリース: 2026-05-07 · 読了 3 分記事の要約
1. 核心(What)
- DeepSeek V4 Flash (284B) を 2-bit 量子化し、128GB RAM の MacBook Pro で動作可能にした。
- M3 Ultra 環境で 1.1 万トークンのプレフィル速度 468 t/s、生成速度 27.39 t/s を記録した。
- 100 万トークンのコンテキスト窓に対応し、KV キャッシュを SSD へ永続化する機能を独自実装した。
- GPT-5.5 の支援を受けて開発され、llama.cpp に依存しない独自の Metal グラフ実行エンジンを採用している。
2. 影響(Why)
- KV キャッシュを RAM ではなく SSD に逃がす設計は、ローカル RAG のメモリ制約を根本から変える。
- 特定モデルに特化した軽量な推論実装は、汎用ランナーよりも高い最適化効率を求めるエッジ AI 開発のベンチマークになる。
- 開発者への影響: Mac Studio 等のハイエンド機を持つ開発者は、商用 API を介さず 284B 規模のモデルを実用速度で叩けるようになり、機密データのローカル解析が加速する。
- 日本への影響: 国内の [AI スタートアップ] や [製造業の RAG 構築チーム] は、クラウドコストを抑えつつ 284B 規模のモデルをセキュアなローカル環境で運用する際の構成案として、SSD 活用型の推論手法を検討すべきである。
3. 根拠・詳細(How)
- antirez/ds4 (2026-05-07 公開)