Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM/ローカルLLM用PC構築:最適ワークステーション(GPU・VRAM・7B〜70B対応)
Hardware Setups

ローカルLLM用PC構築:最適ワークステーション(GPU・VRAM・7B〜70B対応)

·10分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

$4,000–6,000ワークステーション:RTX 4090×2(48GB VRAM)、Threadripper 7970X(32コア)、128GB DDR5、カスタム冷却、2,000W電源。 2026年4月:70B×2–3名同時14トークン/秒、Llama 3.3ファインチューニング並行、クラウドAPI不要。

本番運用向けローカルLLM推論ワークステーションの構築費用は$4,000–6,000で、RTX 4090×2(合計48GB VRAM)、Threadripper 7970X CPU(32コア)、128GB DDR5メモリ、カスタム冷却システム、2,000W電源を搭載します。 2026年4月時点で、このレベルのマシンは70Bモデルを2–3名の同時利用者に対して14トークン/秒で提供でき、Llama 3.3 70Bのファインチューニングを推論と並行実行でき、クラウドAPI費用なしのオンプレミス環境を実現できます。

重要なポイント

  • CPU:Threadripper 7970X(32コア、¥358,000–367,000)またはIntel Xeon W9-3495X(¥1,100,000以上)。推論提供中の並行ファインチューニングを実現。
  • GPU:2× RTX 4090 24GB(中古ペア約¥330,000–385,000)。48GB VRAM総容量。マルチユーザー70Bまたは単一70B + 準備タスク。
  • メモリ:128GB DDR5(¥132,000–176,000)。70B上の8+同時ユーザーまたは単一ユーザー70B + 並行量子化をサポート。
  • ストレージ:4–8TB NVMe SSD + 12–24TB HDD(¥176,000–330,000)。マルチモデルライブラリ + バックアップ + トレーニングデータセット。
  • 電源:2× 1200Wまたは1× 2000W(¥176,000–264,000)。デュアル4090sは900W持続;スパイク用ヘッドルーム不可欠。
  • 冷却:カスタム液冷ループまたはデュアルAIO(¥220,000–440,000)。GPU単体 + CPU = 1,200W熱出力。
  • ネットワーク:10Gbpsイーサネット オプション(¥44,000–88,000)。ボトルネックなしLANマルチユーザー。
  • 合計:$4,000–6,000。8+同時70Bユーザーをサポート、または1ユーザーファインチューニング + 並行サービング。

誰が$4K–6Kワークステーションを必要とするか?

このティアは対象:

  • SMB/企業: 5+従業員向けの内部LLM APIを実行。オンプレミスデータ管理が必須。
  • AI研究者: 大規模モデルのファインチューニング(70B LoRA)およびチーム向け推論提供。単一¥220,000 rigは並行処理不可。
  • MLOpsエンジニア: 内部推論クラスタの構築。1つのワークステーションをサーバーノードとして開始。
  • コンテンツスタジオ(プロ向け): 24/7ビデオキャプション、コード生成、要約をAPIコストなしで実行。

ワークステーションのパーツリストは何か?

プロフェッショナルワークステーションは、デュアルRTX 4090s(中古ペア¥330,000–385,000)とThreadripper CPU(¥358,000–367,000)から始まり、128GB DDR5メモリとカスタム液冷が含まれます。 完全なパーツリストとコスト内訳:

コンポーネントモデル価格(2026年4月)ノート
GPU2× RTX 4090 24GB(中古)¥330,000–385,000NVLink橋をオプション提供。ペアリング前に両カードテスト。
CPUThreadripper 7970X(32コア)¥358,000–367,000ファインチューニング時に32並列コア、両GPU推論実行。
マザーボードTRX850またはXeon W90¥88,000–176,000デュアルGPUサポート、PCIe 5.0、エンタープライズグレード電源。
メモリ128GB DDR5 6000 MHz¥132,000–176,000Corsair Dominator Platinum。8+同時ユーザーをサポート。
ストレージ4TB NVMe + 12TB HDD¥176,000–264,000ホットモデルNVMe、バックアップ&データセットHDD。
電源2000W 80+ Platinum または 2× 1200W¥220,000–330,000デュアル4090s = 900W持続、2000W+ ヘッドルーム必須。
冷却カスタムループまたは2× 360mm AIO¥330,000–550,000CPU + 2 GPU = 1,200W熱。空冷では不十分。
ケースLian Li O11 Dynamic または Corsair Crystal¥44,000–66,000デュアルGPUクリアランス、大型AIOループ対応。
合計--¥880,000–1,320,000GPU市場価格と冷却選択で変動。
ワークステーション コンポーネント:デュアル RTX 4090 GPU(計 48GB VRAM)、Threadripper 7970X CPU(32 コア)、128GB DDR5 メモリ、2000W 電源、液体冷却システム(1,200W 放熱)。
ワークステーション コンポーネント:デュアル RTX 4090 GPU(計 48GB VRAM)、Threadripper 7970X CPU(32 コア)、128GB DDR5 メモリ、2000W 電源、液体冷却システム(1,200W 放熱)。

デュアルGPUを最大パフォーマンスに設定するには?

2つのRTX 4090sは48GB VRAMと推論用約2倍スループットを提供します。 3つの構成オプション:サイドバイサイド独立操作、NVLink統合VRAMフュージョン、またはテンソル並列単一モデル加速。

📍 一文で説明

デュアルGPUはカード毎独立モデル(最も簡単)またはNVLink経由VRAM統合(複雑だが大規模モデル)のいずれかで実行。

💬 簡潔に説明

2台の別々コンピュータ(サイドバイサイド)vs 1つ共有スーパーコンピュータ(NVLink)として考えてください。サイドバイサイドはセットアップが簡単;共有はハイパワーモデルに有効。

  1. 1
    サイドバイサイド(NVLinkなし): 各GPUが独立実行。モデルA on GPU 0、モデルB on GPU 1。異種ワークロード(7Bファインチューニング + 70B提供)に最適。
  2. 2
    NVLink橋: VRAM統合(48GBが単一48GBプールに見える)。より大きなバッチサイズまたは巨大コンテキストウィンドウを有効。コスト:€200–300橋 + セットアップ複雑度。
  3. 3
    デュアルGPU推論: 単一70Bモデルを2GPU上でシャード化して2倍スループット(14 tok/sではなく28 tok/s)。vLLMまたはllama.cppテンソル並列サポートが必須。
3 つのデュアル GPU 設定オプション:独立した並列運用(混合ワークロード、NVLink なし)、NVLink ブリッジ(統合 48GB VRAM、大規模コンテキスト)、テンソル並列化(単一 70B モデルを GPU 間で分割して 28 トークン/秒スループット)。
3 つのデュアル GPU 設定オプション:独立した並列運用(混合ワークロード、NVLink なし)、NVLink ブリッジ(統合 48GB VRAM、大規模コンテキスト)、テンソル並列化(単一 70B モデルを GPU 間で分割して 28 トークン/秒スループット)。

💡 Pro Tip: 異種ワークロード向けNVLinkをスキップ。独立操作はシンプル、低コスト(¥44,000節約)、ブリッジファームウェアバグを排除。

⚠️ Warning: NVLink橋はNVIDIAプロプライエタリドライバサポート必須。オープンソースROCmまたはAMD同等品は異なるGPU間ブリッジをサポートしない。

デュアルRTX 5090 vs デュアルRTX 4090:パフォーマンス&価値(2026年4月)

デュアルRTX 4090中古(¥330,000–385,000)はQ4 70B at 100 tok/sで価値選択肢のまま。デュアルRTX 5090新品(¥880,000)はより高VRAM(64GB)と品質(Q8形式)で勝るがコスト¥308,000–396,000多い。 シングルRTX 5090(¥440,000新品)は複雑さなく70B Q4 at 40–50 tok/sに対応。

構成VRAM70B速度コスト
デュアルRTX 4090(中古)48 GB100 tok/s(Q4)¥330,000–385,000
シングルRTX 5090(新品)32 GB40–50 tok/s(Q4)¥440,000
デュアルRTX 5090(新品)64 GB120 tok/s(Q4)¥880,000

💡 Pro Tip: Q4 70B推論最大スループット:デュアル4090中古(¥330,000–385,000)は2026年4月最高70B価値提供。新5090は50%以上高コスト。

📌 Key Point: デュアル5090はQ8 70B(高出力品質)またはフューチャープルーフ向け勝利。シングル5090はソロユーザー向けデュアルGPU複雑度排除。

1,200Wの熱をどう冷やすか?

RTX 4090(450W)+ RTX 4090(450W)+ CPU(200W)= 1,100W持続、1,300Wまでスパイク。

  • カスタム液冷ループ: ¥330,000–550,000。CPU水ブロック + GPU水ブロック + 360mmラジエター。GPU <75°C、CPU <80°Cを維持。
  • デュアル360mm AIO: ¥132,000–198,000。GPU毎1つAIO + 別途CPU冷却。カスタムループより組み立てやすく、メンテナンス容易。
  • 空冷: 実現不可。持続70B推論でサーマルスロットリング確実。
放熱:デュアル RTX 4090(各 450W)と Threadripper CPU(200W)から合計 1,200W。冷却ソリューション:カスタム液体ループ(¥121,000–198,000)、デュアル 360mm AIO(¥49,000–73,000)、または空冷(非推奨、熱スロットリング)。
放熱:デュアル RTX 4090(各 450W)と Threadripper CPU(200W)から合計 1,200W。冷却ソリューション:カスタム液体ループ(¥121,000–198,000)、デュアル 360mm AIO(¥49,000–73,000)、または空冷(非推奨、熱スロットリング)。

🛠️ Best Practice: 5+ W/mK導熱性熱グリース使用(Noctua NT-H2、Corsair TM30)。低価格グリースは10–15°C追加でGPU保証無効。

適切な電源と電気配線セットアップとは?

デュアル4090s(900W持続、1,300Wスパイク)は2000W電源最小が必須 — それ以下は電圧低下とロード下クラッシュを招く。 単一2000W電源または冗長用デュアル1200W電源を選択可能ですが、自宅/オフィス回路がピーク時2000Wを処理できることを確認してください。

  • オプション1:シングル2000W電源: Seasonic、Corsair、またはEVGA 80+ Platinum。ケーブルルーティングがきれいで単一障害点。
  • オプション2:デュアル1200W電源: GPU毎1つ + 共有マザーボード。冗長性(1つ失敗、推論50%速度で継続)。セットアップ複雑。
  • 容量ルール: デュアル4090用2000W最小。それ以下はロード下電圧低下を招く。
  • 回路計画: デュアルGPU rigはピーク2000Wを消費。20A回路を確認(典型的ホーム/オフィス100V 15A、不足)。240V専用ラインが利用可能なら使用。
電源要件:常時 ~1,100W(GPU 450W + 450W、CPU 200W)、ピーク 1,300W。電源ユニット オプション:単一 2000W(シンプル、きれいなケーブル)または デュアル 1200W(冗長、複雑な設定)。どちらも 20A 240V 専用回路が必要。
電源要件:常時 ~1,100W(GPU 450W + 450W、CPU 200W)、ピーク 1,300W。電源ユニット オプション:単一 2000W(シンプル、きれいなケーブル)または デュアル 1200W(冗長、複雑な設定)。どちらも 20A 240V 専用回路が必要。

⚠️ Warning: ホーム電源は通常15A 100V(1,800W最大)。デュアル4090 rigはブレーカーをトリップさせます。専用240V 20A回路をインストール(電気工事者費用¥44,000–88,000)。

📌 Key Point: モジュラー電源を常に使用。デュアルGPUは多数パワーピン;非モジュラーケーブルはマルチピンコネクタ接触抵抗による火災ハザード作成。

マルチユーザー推論パフォーマンスはどの程度期待できるか?

128GB RAMおよびデュアル4090sで、2–3同時70Bユーザーを14 tok/sで提供、または8+同時7Bユーザーを30+ tok/sで提供可能。 以下ベンチマークはQ4量子化とvLLMマルチユーザー・スケジューリングを想定:

  • シングルユーザー、70Bモデル: 28トークン/秒(テンソル並列経由GPU毎2× 14 tok/s)。
  • 2同時ユーザー、70B各: 14トークン/秒/ユーザー(リクエスト時間多重化)。
  • 4同時ユーザー、7B各: 120トークン/秒合計(ユーザー毎30 tok/s)。
  • 7B LoRA ファインチューニング + 70B提供: GPU 0上ファインチューニング(100W)、GPU 1上推論(450W)。干渉なし。

ワークステーション構築の一般的な誤りとは?

  • 2つの異なるGPUモデル購入(5090 + 4090)。非対称はロードバランシング問題を招く。同一カードに固定。
  • PSUコスト削減しようと¥44,000節約。1500W PSU + デュアル4090sはロード下でスロットル或いはクラッシュ。
  • 空冷をリキッド代わりに使用。サーマルスロットリングは持続推論で30–50%スループット削減。
  • TCO計算で電気コスト忘却。 デュアルRTX 4090s持続推論で900Wを消費。日本平均(¥32/kWh)24/7実行:約¥1,050,000/年電気代。3年間:¥3,150,000–3,150,000電気のみ。ROI vs クラウドAPI決定に係数化。
  • マルチユーザー設定向けネットワークを軽視。 標準ギガビットイーサネット(1Gbps = 125MB/s)は5+同時ユーザー、長コンテキスト応答時ボトルネック。2.5Gbpsまたは10Gbpsイーサネットへアップグレード本番ステーション向けチームサービング。コスト:NIC + スイッチ¥44,000–88,000。

⚠️ Warning: 非マッチングGPU(異モデルまたはVRAMサイズ)はテンソル並列破壊。vLLMはシングルGPU推論フォールバック、スループット50%。

💡 Pro Tip: 新シングルカード代わりに検証済み中古RTX 4090ペア購入(前オーナー実績)。¥176,000–264,000節約しハードウェアロットリーリスク回避。

よくある質問

🔍 Did You Know?: デュアルRTX 4090全推論ロード下で900W持続消費。電気代:日本平均(¥32/kWh)で24/7実行時約¥1,050,000/年。

ThreadripperプロセッサはRyzen 9のかわりに必要か?

推論のみ:Ryzen 9は良好に動作。推論 + 並行ファインチューニング:Threadripperの追加コア(32 vs. 16)は不可欠。

2つの4090を統合するためNVLinkを使用すべきか?

オプション。各GPU別モデル実行時(7B + 70B)はスキップ。単一70Bを両GPUシャード化しバッチサイズ向上時は使用。

デュアル4090 rigが何同時ユーザーをサポートするか?

70B向け:2–3ユーザー(各14 tok/s)。7B向け:8+ユーザー(各30+ tok/s)。

デュアル4090かわりシングルRTX 5090にアップグレード可能か?

シングル5090:デュアル4090に類似パフォーマンス、VRAMその半分(24GB vs. 48GB)、¥440,000。デュアル5090:¥880,000(オーバーキル、悪い値)。

クラウドLLM APIとの¥880,000ワークステーションROIは?

クラウド:1Kトークンあたり¥0.00088。ワークステーション:¥880,000を2年分割 = ¥440,000/年、約¥0.00000088/トークン。軽度利用で2.5Bトークン/年でブレークイーブン。

ワークステーションはデータセンター冷却が必要か?

いいえ。コンシューマー級液冷(2× 360mm AIOまたはカスタムループ)十分。データセンター冷却(インロー、オーバーヘッド)は密度向け;1ワークステーションの1,200Wはオフィスエアコン内に収まります。

デュアル4090今購入かわりにRTX 6090を待つべきか?

NVIDIA RTX 60シリーズは歴的2年更新サイクル基づき2026年末から2027年予想。今ワークステーション必要:デュアルRTX 4090中古(¥330,000–385,000)が2026年4月で70B推論最高値提供。12–18ヶ月待機可:RTX 6090は可能性49GB VRAM単一カード、デュアルGPU必要排除全体。

デュアル4090ワークステーションの騒音レベルはいくつか?

持続70B推論:カスタム液冷で1メートル50–60dB。通常オフィス会話に相当。デュアル360mm AIO:55–65dB(ロード下で聴覚的に大きい)。空冷:65–75dB(大きい、オフィス用実用的でない)。デスク側配置:カスタムループまたは静か AIO不可欠。サーバー室配置:騒音は無関。

ローカルLLM使用時のMETI AI ガバナンス考慮は?

はい。日本(METI AI治理)はローカル推論を戦略的優先。すべてのデータオンプレミスでMETI AI ガバナンス2024完全準拠。エンタープライズデプロイ向け:アクセス管理(LDAP、ファイアウォール)を実装し、データフロー&削除ポリシーをDPA(データ処理契約)で文書化。金融・医療・公的部門の大規模企業に推奨。

ソース

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース(ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex)で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

ローカルLLM、独自のAPIキー、またはその両方でPromptQuorumを使用できます — バックエンドはあなたが選択します。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る