TL;DR
- 16GB:7Bモデルのみ(ギリギリ)
- 36GB:13Bは余裕、34B Q4はギリギリ
- 64GB:34B Q5は余裕
- 128GB:70B Q5は余裕
- 購入後のアップグレード不可——購入時に最大限を選択
重要なポイント
- ユニファイドメモリ = CPUとGPUで共有——すべてLLMモデルに使用可能。
- RTX 4070は12GB VRAM + 32GB RAM(別々)。MacはUnified Memory = すべて使用可能。
- 64GB MacはmacOSオーバーヘッド(4〜8GB)後、LLMに~56〜60GB使用可能。
- スワップあり:モデルが空きメモリを超えた場合、macOSはSSDを使用。動作するが5〜10倍遅い。
- モデルサイズはGBで量子化によって異なる:Llama 3.1 8Bは16GB FP16、5GB Q4、8.5GB Q8。
- ルール:最大メモリを購入——購入後のアップグレード不可。販売時のメモリコストは5〜10%;後でMac全体を交換すると100%のコスト。
LLMにおけるユニファイドメモリの仕組み
ユニファイドメモリはCPUとGPUで共有され、すべてモデルに使用可能です。ディスクリートGPU(RTX 4070は12GB VRAM + 32GB RAM別々)とは異なり、Apple Siliconは1つのプールを共有します。64GB Mac = モデルに64GB使用可能。macOSとアプリが4〜8GB使用し、LLMに56〜60GB残ります。
マスターテーブル:メモリ層対モデルサイズ
| Model | Parameters | Q3_K | Q4_K_M | Q5_K_M | Q8 | FP16 |
|---|---|---|---|---|---|---|
| Phi-4 | 3.8B | 2.1 GB | 2.5 GB | 2.9 GB | 4.0 GB | 7.6 GB |
| Mistral 7B | 7B | 3.8 GB | 4.5 GB | 5.2 GB | 7.5 GB | 14 GB |
| Llama 3.1 8B | 8B | 4.2 GB | 5.0 GB | 5.8 GB | 8.5 GB | 16 GB |
| Llama 3.1 13B | 13B | 7.0 GB | 8.5 GB | 9.8 GB | 14 GB | 26 GB |
| Qwen2.5 34B | 34B | 17 GB | 20 GB | 24 GB | 36 GB | 68 GB |
| Llama 3.1 70B | 70B | 36 GB | 42 GB | 49 GB | 74 GB | 140 GB |
| Llama 3.1 405B | 405B | 200+ GB | 240 GB | 280 GB | 410 GB | 810 GB |
MacでのFit計算時に、macOSオーバーヘッドとして4〜8GBを追加してください。
収まる/収まらないマトリクス
| モデル + 量子化 | 16GB | 36GB | 64GB | 128GB |
|---|---|---|---|---|
| Phi-4 Q4 (2.5 GB) | ✓ 余裕 | ✓ 余裕 | ✓ 余裕 | ✓ 余裕 |
| Llama 3.1 8B Q4 (5 GB) | ⚠️ ギリギリ | ✓ 余裕あり | ✓ 余裕 | ✓ 余裕 |
| Llama 3.1 8B Q8 (8.5 GB) | ✗ 収まらない | ✓ 余裕あり | ✓ 余裕 | ✓ 余裕 |
| Llama 3.1 13B Q4 (8.5 GB) | ✗ 収まらない | ✓ 余裕あり | ✓ 余裕 | ✓ 余裕 |
| Qwen2.5 34B Q4 (20 GB) | ✗ 収まらない | ⚠️ ギリギリ | ✓ 余裕あり | ✓ 余裕 |
| Qwen2.5 34B Q5 (24 GB) | ✗ 収まらない | ✗ 収まらない | ✓ 余裕あり | ✓ 余裕 |
| Llama 3.1 70B Q3 (36 GB) | ✗ 収まらない | ✗ 収まらない | ⚠️ ギリギリ | ✓ 余裕あり |
| Llama 3.1 70B Q4 (42 GB) | ✗ 収まらない | ✗ 収まらない | ⚠️ 非常にギリギリ | ✓ 余裕あり |
| Llama 3.1 70B Q5 (49 GB) | ✗ 収まらない | ✗ 収まらない | ✗ 収まらない | ✓ 余裕あり |
| Llama 3.1 70B Q8 (74 GB) | ✗ 収まらない | ✗ 収まらない | ✗ 収まらない | ✓ 収まる |
✓ 余裕 = 4GB以上空き | ✓ 余裕あり = 2〜4GB空き | ⚠️ ギリギリ = 2GB未満空き | ✗ 収まらない = スワップまたはクラッシュ
各メモリ層に収まるもの(実際)
- 116 GB(M5 base、MacBook Air)
Why it matters: Llama 3.1 8B Q4は収まる(5GBモデル + 8GB OS = 13GB)✓ だがギリギリ。Llama 8B Q8はスワップなしでは収まらない。Whisper smallは並行して収まる。 - 236 GB(M5 Pro ベース)
Why it matters: Llama 3.1 8B Q8は余裕で収まる。Llama 13B Q4は収まる。Qwen2.5 34B Q4はギリギリ(20GB + 8GB OS = 28GB)。マルチモデル:Whisper + LLaVA + TTSが収まる ✓ - 364 GB(M5 Pro max)
Why it matters: Qwen2.5 34B Q5は余裕で収まる(24GB)。Llama 70B Q3はかろうじて収まる。マルチモデルスタックには十分な余裕がある。 - 4128 GB(M5 Max)
Why it matters: Llama 3.1 70B Q5は余裕で収まる(49GB)。70B Q8は収まる(74GB)。マルチモーダル:Whisper + 90Bビジョンモデル + 8B LLMが同時に収まる ✓
マルチモデルスタックのメモリ要件
| スタックのユースケース | 必要なメモリ |
|---|---|
| LLMのみ(Llama 8B Q4) | 5 GB + OS = 13 GB |
| LLM + STT(Llama 8B + Whisper large-v3) | 8 GB + OS = 16 GB |
| LLM + STT + TTS(音声アシスタント) | 9 GB + OS = 17 GB |
| LLM + Vision(Llama 8B + LLaVA 7B) | 11 GB + OS = 19 GB |
| フルマルチモーダル(LLM + Vision + STT + TTS) | 14 GB + OS = 22 GB |
| LLM + RAG(Llama 8B + 埋め込み + ChromaDB) | 8 GB + OS = 16 GB |
| ヘビーマルチモーダル(Llama 70B Q4 + Vision 90B) | 100 GB以上 |
22GBを超えるスタックは最低36GBのMacが必要。50GBを超えるスタックは最低64GBが必要。ヘビーマルチモーダルスタックは128GB M5 Maxのみで動作。
コンテキストウィンドウが追加のメモリオーバーヘッドを生成する
KVキャッシュはコンテキスト長に比例してスケールします——コンテキストウィンドウが長いほど、モデルがランタイムで使用するメモリが増えます。これはギリギリの設定をスワップに押し込む可能性がある一般的な落とし穴です。
- Llama 3.1 8B(8Kコンテキスト時):+0.5 GB
- Llama 3.1 8B(32Kコンテキスト時):+2 GB
- Llama 3.1 8B(128Kコンテキスト時):+8 GB
- Llama 3.1 70B(32Kコンテキスト時):+6 GB
- Llama 3.1 70B(128Kコンテキスト時):+24 GB
最大メモリを購入すべき理由
- Apple Siliconメモリは購入後にアップグレードできない。
- モデルサイズは成長中:今日8B → 2027年には13〜34Bがスイートスポット。
- 16GBはLLMには既に不十分——最低36GB推奨。
- 価格差:36GB→64GBは購入時に約25,000円追加だが、2年後にモデルが36GBを超えたときの新しいMac購入を節約できる。
- M5 Pro 36GBは今日約125,000円;64GBは約150,000円。2年後の同等M5 Pro 64GB:200,000円以上。
量子化が品質に与える影響
Q4_K_M(4ビット):FP16比~1〜2%の品質損失。ほとんどの用途では気づかない。最良のデフォルト。
Q5_K_M(5ビット):~0.5〜1%の品質損失。無視できるレベル。余裕がある場合は推奨。
Q8(8ビット):~0.1%の品質損失。実質的にロスレス。
Q3_K(3ビット):3〜5%の品質損失。複雑な推論で顕著。スペース制約のあるシナリオのみ許容。
36GBと64GBどちらを選ぶべきですか?
予算が許す場合は64GBを選択(約25,000円の追加)。36GBは今日機能しますが、モデルが成長するにつれ12ヶ月後にはギリギリになります。64GBは2027〜2028年まで将来性があります。
メモリは後でアップグレードできますか?
できません。Apple Siliconメモリははんだ付けされており、アップグレード不可です。購入時に最大限を選択してください。
なぜ16GBでは不十分なのですか?
LLMに16GB + macOSに4〜8GB = 利用可能8〜12GB。Llama 8B Q4は5GBを必要とし、Whisperやタスクのためのスペースがありません。不十分です。
本当に128GBが必要ですか?
定期的に70Bモデルを実行するか、同時にVision + LLM + STTが必要な場合のみ。それ以外は64GBで十分です。
48GBはローカルLLMに十分ですか?
はい——48GB(M4 ProおよびM5 Pro一部設定で利用可能)は快適な中間点です。全34Bモデル、限界での70B Q3、フルマルチモーダルスタックを実行できます。36GBより優れており、64GBが手頃なら将来性の価値があります。
Llama 3.1 70Bをローカルで実行するには?
最低48GB(Q3量子化、品質損失が顕著)。推奨64GB(Q4量子化、ギリギリ)。快適な選択128GB(Q5/Q8量子化、高品質)。64GBレベルは慎重なメモリ管理が必要;128GBは70Bに対して唯一の心配のない選択肢。
2026年のローカルAIに128GBは必要ですか?
定期的に70Bモデルを実行するか、Vision + LLM + STTスタックを同時に使用する場合のみ。日常のLLM使用(8B〜34Bモデル、RAG、コーディング支援)にはM5 Pro 64GBがスイートスポット。特に70Bが必要でない限り、128GBは2〜3倍のコスト増です。
ローカルLLMは日本のAIガバナンスガイドラインに準拠していますか?
はい。データがデバイス上でローカルに処理され外部サーバーに送信されないため、個人情報保護法の第三者提供規制を完全に満たします。経済産業省(METI)のAIガバナンスガイドラインでも、機密データを扱う企業にはローカル処理が推奨されています。