重要なポイント
- RTX 4090は2026年のローカルAI向け最良コンシューマーGPU:24GB VRAM、約1TB/s帯域幅
- 70B Q4モデルは40GB以上のVRAMが必要——デュアルRTX 3090またはCPUオフロードが必須
- Ryzen 9 9950X(Zen 5、16コア)は大型レイヤーのCPUオフロードに最適なCPU
- DDR5-6000 64GBが最低限;128GBで70B CPUオフロードが実用速度で動作
- PCIe Gen 4/5 NVMeは7Bモデルを2秒未満でロード
第1段階:約16万円バジェットAIワークステーション
16万円バジェットビルドは中古RTX 3090(24GB VRAM)を中心に構成。Llama 3.1 8B Q8を45〜60 tok/s、Qwen2.5 14B Q8を20〜28 tok/s、Qwen2.5 32B Q4を12〜18 tok/sでGPUのみで動作。
- フルGPU速度対応モデル: 7B(全量子化)、13B、14B Q4/Q8、30B Q4
- 70Bサポート: CPUオフロード必要 — 約5〜8 tok/s
- 最大消費電力: 約450W
第2段階:約33万円推奨AIワークステーション
33万円推奨ビルドはRTX 4090(24GB、約1TB/sメモリ帯域幅)とAMD Ryzen 9 9950X(Zen 5、16コア)を中心に構成。4090は3090よりVRAM単位で30〜40%高速で、トークンあたりの消費電力も低い。
- 7B Q4速度: 約105〜125 tok/s
- 14B Q8速度: 約48〜60 tok/s
- 30B Q4速度: 約28〜38 tok/s
- 70B Q4(CPUオフロード): 約10〜15 tok/s(64GB RAM時)
- 最大消費電力: 約550W
第3段階:約66万円プロ70Bワークステーション
デュアルRTX 3090(合計48GB VRAM)でGPU速度(25〜40 tok/s)の70Bモデル推論を実現。Ryzen Threadripper 7960X(24コア)と256GB DDR5で大型レイヤーのCPUオフロードも高速化。
- 70B Q4速度: 25〜40 tok/s(両RTX 3090でテンソル並列処理)
- 256GB RAM CPUオフロード: 140B以上を4〜6 tok/sで実行
- 最大消費電力: 約900W
ワークステーションを自作するべきか、クラウドGPUを借りるべきか?
定期利用(1日2時間以上)の場合:ワークステーションを構築。RunPodのA40 48GBは1時間0.44ドル——1日4時間で年間約9万円。300〜400万円のプロビルドは5〜6年で元が取れます。偶発的な利用(1日1時間未満)の場合:クラウドが安い。
OllamaをデュアルGPUで動かすためにNVLinkは必要ですか?
いいえ。OllamaはPCIe経由のCUDAテンソル並列処理を使用します——NVLinkは不要。デュアルRTX 3090のセットアップはNVLinkなしで完全に動作します。
プロビルドにRTX 4090の代わりにデュアルRTX 3090を使う理由は?
VRAMが決め手です。2枚のRTX 3090で合計48GB——Llama 3.1 70B Q4(約40GB)を収容できます。単体のRTX 4090は24GBのみ——70BはCPUオフロードなしでは収まりません。GPU速度での70B推論にはデュアル3090がVRAM/円で優れています。