🛠Tools🔥🔥

antirez、推論サーバー ds4.c を公開──DeepSeek V4 Flash を 128GB Mac で高速動作

Redis 開発者の antirez 氏が開発。DeepSeek V4 Flash に特化し、SSD を KV キャッシュの永続化先として活用することで、100 万トークンの超長文脈をローカルの Mac 環境で実用的な速度で動作させる。
リリース: 2026-05-07 · 読了 3

記事の要約

1. 核心(What)

  • DeepSeek V4 Flash (284B) を 2-bit 量子化し、128GB RAM の MacBook Pro で動作可能にした。
  • M3 Ultra 環境で 1.1 万トークンのプレフィル速度 468 t/s、生成速度 27.39 t/s を記録した。
  • 100 万トークンのコンテキスト窓に対応し、KV キャッシュを SSD へ永続化する機能を独自実装した。
  • GPT-5.5 の支援を受けて開発され、llama.cpp に依存しない独自の Metal グラフ実行エンジンを採用している。

2. 影響(Why)

  • KV キャッシュを RAM ではなく SSD に逃がす設計は、ローカル RAG のメモリ制約を根本から変える。
  • 特定モデルに特化した軽量な推論実装は、汎用ランナーよりも高い最適化効率を求めるエッジ AI 開発のベンチマークになる。
  • 開発者への影響: Mac Studio 等のハイエンド機を持つ開発者は、商用 API を介さず 284B 規模のモデルを実用速度で叩けるようになり、機密データのローカル解析が加速する。
  • 日本への影響: 国内の [AI スタートアップ] や [製造業の RAG 構築チーム] は、クラウドコストを抑えつつ 284B 規模のモデルをセキュアなローカル環境で運用する際の構成案として、SSD 活用型の推論手法を検討すべきである。

3. 根拠・詳細(How)

  • antirez/ds4 (2026-05-07 公開)