jamesob、SOTA LLM をローカル実行するハードウェア構成ガイドを公開──最大 384GB VRAM の自作環境
2,000ドルから4万ドルまでの予算別構成と、PCIeスイッチを用いたマルチGPU通信の最適化手法を解説する。
リリース: 2026-07-03 · 読了 5 分記事の要約
1. 核心(What)
- 2,000ドルで48GB VRAM(RTX 3090×2)、40,000ドルで384GB VRAM(RTX 6000 Pro×4)の構成例を提示。
- PCIe Gen4 Switch(Microchip Switchtec PM40100)を導入し、GPU間のピアツーピア通信を高速化。
- GLM-5.2-594BモデルをvLLM環境で実行し、約80 t/sの推論速度(460kコンテキスト)を実現。
- Whisper-large-v3を用いたローカル音声認識(STT)の構築用設定ファイルを公開。
2. 影響(Why)
- 商用API依存からの脱却: 機密性の高い業務データや、API利用料が膨大になる長文脈推論を、自前環境で完結させるための現実的なハードウェア設計指針となる。
- 国内開発現場への示唆: 社内検証環境を構築する中規模のAI開発チームにとって、高価な最新ワークステーションを買う前に、中古EPYCとPCIeスイッチを組み合わせたスケーラブルな構成がコスト効率の面で有力な選択肢となる。
3. 根拠・詳細(How)
- PCIeスイッチによる通信最適化: Microchip Switchtec PM40100を使用し、AllReduceステップにおけるデータ転送をPCIルートコンプレックス経由からスイッチ fabric 内のピアツーピア通信へ切り替え、線形レート 27.5/50.4 GB/s を達成。
- 推論環境のコンテナ化: 各モデルを個別の Docker コンテナで隔離し、ZFS ファイルシステム上のモデルウェイトを読み取り専用でマウントする構成を採用。vLLM 0.6 系をベースに推論 API を提供。
4. 展望・課題(Next)
- ハードウェア制約の緩和: PCIe5/DDR5 システムへの移行は現在コストが非常に高いため、当面は PCIe4 世代のコンポーネントを組み合わせた拡張を推奨。