PromptQuorumPromptQuorum
ホーム/ローカルLLM/ローカルLLMに必要なユニファイドメモリは?16GB vs 36GB vs 64GB vs 128GB(2026年)
Hardware & Performance

ローカルLLMに必要なユニファイドメモリは?16GB vs 36GB vs 64GB vs 128GB(2026年)

·10分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

16GB:7Bモデルのみ(ギリギリ)。36GB:13Bは余裕、34B Q4はギリギリ。64GB:34B Q5は余裕。128GB:70B Q5は余裕。購入後にアップグレード不可——購入時に最大メモリを選択。最低36GB推奨;M5 Pro 64GBは2027年まで将来性がある。

MacでローカルLLMを動かすためのメモリサイジングガイド:16GB、36GB、64GB、128GBに収まるモデル。量子化チャート(Q3、Q4、Q5、Q8)、実際のオーバーヘッド、購入アドバイス。完全なモデルサイズ表:3.8B(2.1GB)から405Bモデルまで。

TL;DR

  • 16GB:7Bモデルのみ(ギリギリ)
  • 36GB:13Bは余裕、34B Q4はギリギリ
  • 64GB:34B Q5は余裕
  • 128GB:70B Q5は余裕
  • 購入後のアップグレード不可——購入時に最大限を選択

重要なポイント

  • ユニファイドメモリ = CPUとGPUで共有——すべてLLMモデルに使用可能。
  • RTX 4070は12GB VRAM + 32GB RAM(別々)。MacはUnified Memory = すべて使用可能。
  • 64GB MacはmacOSオーバーヘッド(4〜8GB)後、LLMに~56〜60GB使用可能。
  • スワップあり:モデルが空きメモリを超えた場合、macOSはSSDを使用。動作するが5〜10倍遅い。
  • モデルサイズはGBで量子化によって異なる:Llama 3.1 8Bは16GB FP16、5GB Q4、8.5GB Q8。
  • ルール:最大メモリを購入——購入後のアップグレード不可。販売時のメモリコストは5〜10%;後でMac全体を交換すると100%のコスト。

LLMにおけるユニファイドメモリの仕組み

ユニファイドメモリはCPUとGPUで共有され、すべてモデルに使用可能です。ディスクリートGPU(RTX 4070は12GB VRAM + 32GB RAM別々)とは異なり、Apple Siliconは1つのプールを共有します。64GB Mac = モデルに64GB使用可能。macOSとアプリが4〜8GB使用し、LLMに56〜60GB残ります。

マスターテーブル:メモリ層対モデルサイズ

ModelParametersQ3_KQ4_K_MQ5_K_MQ8FP16
Phi-43.8B2.1 GB2.5 GB2.9 GB4.0 GB7.6 GB
Mistral 7B7B3.8 GB4.5 GB5.2 GB7.5 GB14 GB
Llama 3.1 8B8B4.2 GB5.0 GB5.8 GB8.5 GB16 GB
Llama 3.1 13B13B7.0 GB8.5 GB9.8 GB14 GB26 GB
Qwen2.5 34B34B17 GB20 GB24 GB36 GB68 GB
Llama 3.1 70B70B36 GB42 GB49 GB74 GB140 GB
Llama 3.1 405B405B200+ GB240 GB280 GB410 GB810 GB

MacでのFit計算時に、macOSオーバーヘッドとして4〜8GBを追加してください。

収まる/収まらないマトリクス

モデル + 量子化16GB36GB64GB128GB
Phi-4 Q4 (2.5 GB)✓ 余裕✓ 余裕✓ 余裕✓ 余裕
Llama 3.1 8B Q4 (5 GB)⚠️ ギリギリ✓ 余裕あり✓ 余裕✓ 余裕
Llama 3.1 8B Q8 (8.5 GB)✗ 収まらない✓ 余裕あり✓ 余裕✓ 余裕
Llama 3.1 13B Q4 (8.5 GB)✗ 収まらない✓ 余裕あり✓ 余裕✓ 余裕
Qwen2.5 34B Q4 (20 GB)✗ 収まらない⚠️ ギリギリ✓ 余裕あり✓ 余裕
Qwen2.5 34B Q5 (24 GB)✗ 収まらない✗ 収まらない✓ 余裕あり✓ 余裕
Llama 3.1 70B Q3 (36 GB)✗ 収まらない✗ 収まらない⚠️ ギリギリ✓ 余裕あり
Llama 3.1 70B Q4 (42 GB)✗ 収まらない✗ 収まらない⚠️ 非常にギリギリ✓ 余裕あり
Llama 3.1 70B Q5 (49 GB)✗ 収まらない✗ 収まらない✗ 収まらない✓ 余裕あり
Llama 3.1 70B Q8 (74 GB)✗ 収まらない✗ 収まらない✗ 収まらない✓ 収まる

✓ 余裕 = 4GB以上空き | ✓ 余裕あり = 2〜4GB空き | ⚠️ ギリギリ = 2GB未満空き | ✗ 収まらない = スワップまたはクラッシュ

各メモリ層に収まるもの(実際)

  1. 1
    16 GB(M5 base、MacBook Air)
    Why it matters: Llama 3.1 8B Q4は収まる(5GBモデル + 8GB OS = 13GB)✓ だがギリギリ。Llama 8B Q8はスワップなしでは収まらない。Whisper smallは並行して収まる。
  2. 2
    36 GB(M5 Pro ベース)
    Why it matters: Llama 3.1 8B Q8は余裕で収まる。Llama 13B Q4は収まる。Qwen2.5 34B Q4はギリギリ(20GB + 8GB OS = 28GB)。マルチモデル:Whisper + LLaVA + TTSが収まる ✓
  3. 3
    64 GB(M5 Pro max)
    Why it matters: Qwen2.5 34B Q5は余裕で収まる(24GB)。Llama 70B Q3はかろうじて収まる。マルチモデルスタックには十分な余裕がある。
  4. 4
    128 GB(M5 Max)
    Why it matters: Llama 3.1 70B Q5は余裕で収まる(49GB)。70B Q8は収まる(74GB)。マルチモーダル:Whisper + 90Bビジョンモデル + 8B LLMが同時に収まる ✓

マルチモデルスタックのメモリ要件

スタックのユースケース必要なメモリ
LLMのみ(Llama 8B Q4)5 GB + OS = 13 GB
LLM + STT(Llama 8B + Whisper large-v3)8 GB + OS = 16 GB
LLM + STT + TTS(音声アシスタント9 GB + OS = 17 GB
LLM + Vision(Llama 8B + LLaVA 7B)11 GB + OS = 19 GB
フルマルチモーダル(LLM + Vision + STT + TTS)14 GB + OS = 22 GB
LLM + RAG(Llama 8B + 埋め込み + ChromaDB)8 GB + OS = 16 GB
ヘビーマルチモーダル(Llama 70B Q4 + Vision 90B)100 GB以上

22GBを超えるスタックは最低36GBのMacが必要。50GBを超えるスタックは最低64GBが必要。ヘビーマルチモーダルスタックは128GB M5 Maxのみで動作。

コンテキストウィンドウが追加のメモリオーバーヘッドを生成する

KVキャッシュはコンテキスト長に比例してスケールします——コンテキストウィンドウが長いほど、モデルがランタイムで使用するメモリが増えます。これはギリギリの設定をスワップに押し込む可能性がある一般的な落とし穴です。

  • Llama 3.1 8B(8Kコンテキスト時):+0.5 GB
  • Llama 3.1 8B(32Kコンテキスト時):+2 GB
  • Llama 3.1 8B(128Kコンテキスト時):+8 GB
  • Llama 3.1 70B(32Kコンテキスト時):+6 GB
  • Llama 3.1 70B(128Kコンテキスト時):+24 GB

最大メモリを購入すべき理由

  • Apple Siliconメモリは購入後にアップグレードできない。
  • モデルサイズは成長中:今日8B → 2027年には13〜34Bがスイートスポット。
  • 16GBはLLMには既に不十分——最低36GB推奨。
  • 価格差:36GB→64GBは購入時に約25,000円追加だが、2年後にモデルが36GBを超えたときの新しいMac購入を節約できる。
  • M5 Pro 36GBは今日約125,000円;64GBは約150,000円。2年後の同等M5 Pro 64GB:200,000円以上。

量子化が品質に与える影響

Q4_K_M(4ビット):FP16比~1〜2%の品質損失。ほとんどの用途では気づかない。最良のデフォルト。

Q5_K_M(5ビット):~0.5〜1%の品質損失。無視できるレベル。余裕がある場合は推奨。

Q8(8ビット):~0.1%の品質損失。実質的にロスレス。

Q3_K(3ビット):3〜5%の品質損失。複雑な推論で顕著。スペース制約のあるシナリオのみ許容。

36GBと64GBどちらを選ぶべきですか?

予算が許す場合は64GBを選択(約25,000円の追加)。36GBは今日機能しますが、モデルが成長するにつれ12ヶ月後にはギリギリになります。64GBは2027〜2028年まで将来性があります。

メモリは後でアップグレードできますか?

できません。Apple Siliconメモリははんだ付けされており、アップグレード不可です。購入時に最大限を選択してください。

なぜ16GBでは不十分なのですか?

LLMに16GB + macOSに4〜8GB = 利用可能8〜12GB。Llama 8B Q4は5GBを必要とし、Whisperやタスクのためのスペースがありません。不十分です。

本当に128GBが必要ですか?

定期的に70Bモデルを実行するか、同時にVision + LLM + STTが必要な場合のみ。それ以外は64GBで十分です。

48GBはローカルLLMに十分ですか?

はい——48GB(M4 ProおよびM5 Pro一部設定で利用可能)は快適な中間点です。全34Bモデル、限界での70B Q3、フルマルチモーダルスタックを実行できます。36GBより優れており、64GBが手頃なら将来性の価値があります。

Llama 3.1 70Bをローカルで実行するには?

最低48GB(Q3量子化、品質損失が顕著)。推奨64GB(Q4量子化、ギリギリ)。快適な選択128GB(Q5/Q8量子化、高品質)。64GBレベルは慎重なメモリ管理が必要;128GBは70Bに対して唯一の心配のない選択肢。

2026年のローカルAIに128GBは必要ですか?

定期的に70Bモデルを実行するか、Vision + LLM + STTスタックを同時に使用する場合のみ。日常のLLM使用(8B〜34Bモデル、RAG、コーディング支援)にはM5 Pro 64GBがスイートスポット。特に70Bが必要でない限り、128GBは2〜3倍のコスト増です。

ローカルLLMは日本のAIガバナンスガイドラインに準拠していますか?

はい。データがデバイス上でローカルに処理され外部サーバーに送信されないため、個人情報保護法の第三者提供規制を完全に満たします。経済産業省(METI)のAIガバナンスガイドラインでも、機密データを扱う企業にはローカル処理が推奨されています。

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

適切なメモリでMacを購入しましたか?PromptQuorumを使って、ローカルLLMの回答をGPT-4、Claude、Geminiなど22以上のモデルと比較しましょう。あなたのメモリ設定が特定のタスクでクラウドに匹敵する品質を提供するか検証できます。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る

Speicher-Leitfaden für lokale LLMs 2026 | PromptQuorum