Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/2026年本地LLM硬件:GPU vs 迷你PC vs Mac 对比
Hardware & Performance

2026年本地LLM硬件:GPU vs 迷你PC vs Mac 对比

·阅读时间13分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

本地LLM硬件要求主要取决于显存:7B模型需要8 GB,13B模型需要12-16 GB,70B模型根据量化需要35-48 GB。对于推理速度,GPU选择比CPU重要10倍。

运行本地LLM意味着将模型与GPU的显存相匹配。截至2026年6月,7B模型在Q8下需要8-9 GB显存,14B模型在Q4_K_M下需要约9 GB,而大多数70B模型需要约40 GB——超过单张RTX 4090(24 GB)的容量。本指南给出每种模型规模的精确硬件要求,然后是8 GB、12 GB、16 GB和24 GB显存档位的最佳模型,本地运行70B真正需要什么,16 GB系统内存上的纯CPU推理,MacBook 8 GB的选项,以及在今年内存短缺之后的2026年6月当前GPU价格。

演示文稿: 2026年本地LLM硬件:GPU vs 迷你PC vs Mac 对比

下面的幻灯片涵盖:12/16/24 GB 的 GPU 显存档位、每档位最佳模型及其显存使用和速度基准、16 GB 内存上的纯CPU推理,以及 RTX 4070 Ti 的 llama.cpp 速度标志。下载 PDF 作为 2026 年本地LLM硬件指南参考卡。

浏览以下幻灯片或下载PDF以供离线参考。 下载参考卡(PDF)

关键要点

  • 显存计算:(模型大小,单位GB)÷ 量化 = 所需显存。示例:70B 在 Q4 下 = 70 ÷ 8 = 每参数 8.75 GB × 参数 ≈ 总共 39 GB。
  • 12 GB 显存(RTX 4070 Ti):最佳模型:Llama 3.1 8B Q8(~9 GB,80 tok/sec)。另外:Qwen3 8B(~8 GB,最佳多语言+编程)。注意:Llama 4 Scout(17B 激活 / 109B 总 MoE)在 Q4 下需要约 55 GB,无法装入 12 GB。
  • 16 GB 显存(RTX 5080 / RTX 5070 Ti):最佳模型:Mistral Small 3.1 24B Q4_K_M(~13 GB,55 tok/sec)。另外:用于智能体编程的 Devstral Small 24B Q4_K_M。Mistral Small 4(2026年3月)是更新的单一模型后继者,融合了推理、视觉和编程。
  • 24 GB 显存(RTX 4090 / RTX 5090):大多数 70B 模型在 Q4_K_M 下(~40 GB)无法装入。最佳选择:Qwen3.6 27B Q4_K_M(~16 GB,77.2% SWE-bench,最佳稠密编程模型)或 DeepSeek-R1 32B Q4_K_M(~19 GB,60 tok/sec)。
  • 纯CPU(16 GB 系统内存):Llama 3.2 3B Q8(20 tok/sec)或 Phi-4 Mini Q4_K_M(25 tok/sec)。一张二手 RTX 4060 8 GB(~$250)或全新 RTX 5060 Ti 16 GB(~$394)要快 5-10 倍。
  • 8 GB 内存的 MacBook:只能运行 3-4B 模型 — 通过 llama.cpp/Ollama(Metal)运行 Q4_K_M 下的 Phi-4 Mini、Llama 3.2 3B 或 Gemma 3 4B。7B 在 8 GB 上勉强可行;16 GB 是舒适的 Mac 最低配置。
  • Apple M5 Max(128 GB 统一内存):在笔记本或 Mac Studio 中可舒适地运行 Q4_K_M 下的 70B 模型(~12-15 tok/sec)——与同样能容纳 70B 模型的 Mac Studio 和 128 GB AMD Strix Halo 系统并列。
  • 2026年6月价格:GDDR7 短缺将 GPU 推高至远超 MSRP,且 RTX 4090 已停产。从有货的 RTX 50 系列购买;购买前查看实时价格。
  • llama.cpp 速度提示:始终设置 `--n-gpu-layers 99`。仅此一项就能将 RTX 4070 Ti 的速度从约 40 翻倍到约 85 tok/sec。
  • 快速参考: 7B@Q4_K_M = 4.7 GB | 70B@Q4_K_M = 40 GB | RTX 4070 Ti = ~80 tok/s | RTX 4090 = ~150 tok/s | 纯CPU 16 GB = 12-28 tok/s

📍 简单一句话

本地LLM的硬件取决于显存:7B模型需要8 GB,13–14B需要12–16 GB,70B模型需要35–48 GB——2026年入门级最佳GPU是二手RTX 4060 8 GB(约250美元)。

💬 简单来说

显存(VRAM)是显卡上的专用内存。AI模型越大,需要的显存越多。经验法则:将模型大小(GB)除以压缩级别(Q4 = 除以8)即可估算所需显存。显存越大,可运行的模型越大,速度也越快。

2026年本地LLM硬件要求

在2026年运行本地LLM的最低硬件是一张 8 GB 显存的 GPU——或一台拥有 16 GB 统一内存的 Apple Silicon Mac——用于 7B 级别的模型。要求随模型规模扩展:14B 需要 12 GB,24B 需要 16 GB,32B 需要 24 GB,而 70B 模型在 Q4_K_M 下需要约 40 GB。 GPU 显存是硬性上限:它决定了哪些模型能够加载。CPU 和系统内存影响加载时间和纯CPU回退速度,但不影响哪个模型能装入 GPU。

将此表作为"我需要什么硬件"的直接答案——找到你的模型规模或显存档位,然后跳到下面的逐档位模型推荐。

模型规模Q4_K_M下的显存GPU示例(2026)最佳模型速度
3-4B4-5 GBAny 8 GB / Mac 8 GBPhi-4 Mini, Gemma 3 4B60-90 tok/s
7-8B5-9 GBRTX 5060 Ti, RTX 4060 (8 GB)Llama 3.1 8B, Qwen3 8B50-80 tok/s
14B~9 GBRTX 5070 (12 GB)Qwen3 14B~80 tok/s
24B~14 GBRTX 5070 Ti / 5080 (16 GB)Mistral Small 3.1 24B~55 tok/s
27-32B16-19 GBRTX 4090 / 5090 (24-32 GB)Qwen3.6 27B, DeepSeek-R1 32B55-60 tok/s
70B~40 GBDual RTX 5090, A100, Mac M5 Max 128 GBLlama 3.3 70B10-60 tok/s

KeyPoint: 一句话: 将模型与你的显存相匹配——8 GB 运行 7B,12 GB 运行 14B,16 GB 运行 24B,24 GB 运行 32B,只有 40 GB 以上才能以可用的 Q4_K_M 质量运行 70B 模型。

ProTip: 为 KV 缓存(对话上下文)预留余量:在模型权重之上为 8K 上下文预算 25%,为 32K 上下文最多预算 100%。参见下面的 KV 缓存部分。

最值得购买的GPU — 2026年推荐

2026年6月用于本地LLM的有货选择是 NVIDIA RTX 50 系列(Blackwell):5060 Ti、5070、5070 Ti、5080、5090。 RTX 40 系列(4060、4070 Ti、4090)已停产,目前在二手市场上稀缺且售价高于旧价。2026年的 GDDR7/内存短缺甚至将 50 系列卡片推高至远超 MSRP,因此请将下面的每个数字视为典型的 2026 年 6 月市场价,购买前查看实时报价。按使用场景的推荐:

  • 用于 7B 模型(Mistral、Phi-4、Llama 3.1)— 预算型: RTX 5060 Ti 16 GB(~$394,接近 MSRP)或二手 RTX 4060 8 GB(~$250)。可在 Q4_K_M 下运行任何 7B 模型。速度:50–70 tok/sec。档位:预算型爱好者。
  • 用于 14B 模型(Qwen3 14B、DeepSeek-R1)— 主流型: RTX 5070(12 GB,~$609)。性价比最佳的新卡。Qwen3 14B Q4_K_M 运行良好且有余量。速度:85–110 tok/sec。档位:最受欢迎。
  • 用于 24-32B 模型(Qwen3.6、Mistral Small)— 中端型: RTX 5070 Ti(16 GB,~$979)或 RTX 5080(16 GB,~$1,249)。可运行 Mistral Small 3.1 24B 和 Devstral Small 24B Q4_K_M。速度:110–150 tok/sec。档位:专业开发者。
  • 用于 70B 模型(Llama 3.3)— 高端型: RTX 5090(32 GB,~$2,000 MSRP 但市场价 ~$4,000)在轻度 CPU 卸载下可容纳 Q4_K_M 的 70B。二手 RTX 4090(24 GB,~$2,300)仅能在 Q2_K 下运行 70B。要完整运行 Q4_K_M,请使用双 RTX 5090。速度:~200 tok/sec(5090,较小模型)。档位:研究 + 生产。
  • 2026年最佳性价比: 单张 RTX 5070 Ti 或 5080(16 GB)是甜点选择——它可在 Q4_K_M 下运行高至 32B 的一切,且没有 50 系列在 5090 上的价格暴涨。
  • Apple 用户: Mac M5 Max(128 GB 统一内存,~$6,000)可在 ~12-15 tok/sec 下运行 Q4_K_M 的 70B——比多 GPU 台式机慢,但静音、节能且便携。
GPU最适合价格速度档位
RTX 5060 Ti (16 GB)7-13B 模型~$39450–70 tok/s预算型
RTX 5070 (12 GB)14B 模型~$60985–110 tok/s主流型
RTX 5070 Ti / 5080 (16 GB)24-32B 模型~$979–1,249110–150 tok/s专业型
RTX 4090 (24 GB, 二手)32B, 70B (Q2)~$2,300150–180 tok/s停产 / 二手
RTX 5090 (32 GB)70B (Q4, 轻度卸载)~$2,000 MSRP(市场价 ~$4,000)~200 tok/s高端型
Dual RTX 509070B (Q4) 完整~$8,000300+ tok/s企业级
Mac M5 Max 128GB70B (Q4)~$6,000~12–15 tok/s (70B)专业笔记本

⚠️Warning: 2026年6月的价格波动剧烈。GDDR7/内存短缺已将 RTX 5090 推高至约其 $1,999 MSRP 的两倍,而停产的 RTX 4090 现在的二手价格比新机时还高。上面的价格是典型市场价——购买前请始终查看当前报价。

如何计算显存要求?

显存要求取决于三个因素:模型大小(参数)、量化(每个权重的位数)和推理模式。 使用此公式判断你的 GPU 是否有足够内存。要使用交互式计算器,请参见本地LLM的显存计算器

公式:

```text VRAM (GB) = (Model Size × Quantization Bits) ÷ 8 ```

量化值: FP16 = 16 位,Q8_0 = 8 位,Q5_K_M = 5 位,Q4_K_M = 4 位。实际的甜点是 Q4_K_M——它使用 4 位权重和 K 量化,NVIDIA GPU 对其的加速比旧的 Q4_0 格式更高效。

模型FP16Q8_0Q5_K_MQ4_K_M
Llama 4 Scout (109B total MoE)~218 GB~109 GB~68 GB~55 GB
Llama 3.1 8B16 GB8.5 GB5.7 GB4.7 GB
Qwen 3.6 27B~54 GB~28 GB~19 GB~16 GB
Qwen3 8B~16 GB~8.5 GB~5.7 GB~5 GB
Llama 3.3 70B140 GB70 GB48 GB40 GB
Qwen3 32B64 GB33 GB22 GB19 GB
Mistral Small 3.1 24B48 GB25 GB17 GB14 GB
Phi-4 Mini 3.8B7.6 GB4.1 GB2.7 GB2.3 GB

Q4_K_M 是消费级硬件的推荐默认值——以 25-30% 的显存成本提供 FP16 质量的 90-95%。Llama 4 Scout 采用 MoE 架构,在 109B 总参数中有 17B 激活参数。全部 109B 专家都必须加载到内存中,因此 Scout 在 Q4 下需要约 55 GB(仅在 1.78 位时才能装入 24 GB)。MoE 减少的是每个 token 的计算量,而非显存占用。

显存计算器展示公式 (Model Size × Bits) ÷ 8,示例:8B Q4_K_M = 4.7 GB,13B Q5_K_M = 9.1 GB,70B Q4_K_M = 40 GB。Q4_K_M 是大多数硬件推荐的甜点。
显存计算器展示公式 (Model Size × Bits) ÷ 8,示例:8B Q4_K_M = 4.7 GB,13B Q5_K_M = 9.1 GB,70B Q4_K_M = 40 GB。Q4_K_M 是大多数硬件推荐的甜点。

KeyPoint: 一句话: 显存是 GPU 的专用内存池——这个单一数字决定了你可以在本地运行哪些 AI 模型以及以何种质量运行。

KV缓存:隐藏的显存成本

显存公式(Model Size × Bits ÷ 8)只涵盖模型权重——KV 缓存增加了大多数指南忽略的可观额外显存。

KV 缓存为上下文窗口中的每个 token 存储注意力状态。它随上下文长度线性增长,并在整个会话期间保留在显存中。

KV 缓存显存公式: `KV cache ≈ layers × heads × head_dim × 2 × context_length × 2 bytes`

模型4K 上下文32K 上下文128K 上下文
Llama 3.1 8B0.5 GB4 GB16 GB
Llama 3.3 70B2 GB16 GB64 GB
Qwen3 32B1 GB8 GB32 GB

KeyPoint: 一句话: KV 缓存是用于存储对话上下文的临时显存——它随你生成的每个 token 增长,且与模型权重存储分开。

⚠️Warning: Q4_K_M 下的 Llama 3.1 8B 权重需要 4.7 GB——但加上 32K 上下文窗口后,总显存升至约 8.7 GB。在 8 GB 卡上,这会导致 OOM 错误。

KeyPoint: 经验法则:对于典型的 8K 上下文,在模型权重大小上增加 25%,对于 32K 上下文增加 100%。Ollama 默认上下文为 2,048 个 token。要设置更高:在 Modelfile 中使用 PARAMETER num_ctx 32768。

哪个GPU档位匹配你的工作负载?

截至2026年6月,NVIDIA GPU 在所有价位上都为本地LLM推理提供最高的每秒 token 数。 下面每个档位的小节给出具体的模型推荐。要查看详细的基准对比,请参见本地LLM最佳GPU指南

档位GPU显存最适合速度
预算型 (~$394)RTX 5060 Ti16 GB7-13B 模型~60 tok/s
主流型 (~$609)RTX 507012 GB7-14B 模型~90 tok/s
中端 (~$979)RTX 5070 Ti16 GB14-32B 模型~110 tok/s
高端 (~$1,249)RTX 508016 GB14-32B 模型~130 tok/s
顶级 (市场价 ~$4,000)RTX 509032 GB70B (Q4, 轻度卸载)~200 tok/s
服务器 ($7,000+)RTX 6000 Ada / A10048-80 GB多用户, 70B+生产级
桌面AI ($4,699)NVIDIA DGX Spark128 GB大型 MoE 模型~3 tok/s (稠密 70B)
GPU 档位推荐(2026年6月市场价):~$394 RTX 5060 Ti(16GB,7-13B,60 tok/s),~$609 RTX 5070(12GB,14B,90 tok/s),~$1,249 RTX 5080(16GB,14-32B,130 tok/s),~$4,000 RTX 5090(32GB,70B,200 tok/s),$4,699 DGX Spark(128GB,大型 MoE)。GPU 选择比 CPU 重要 10 倍。
GPU 档位推荐(2026年6月市场价):~$394 RTX 5060 Ti(16GB,7-13B,60 tok/s),~$609 RTX 5070(12GB,14B,90 tok/s),~$1,249 RTX 5080(16GB,14-32B,130 tok/s),~$4,000 RTX 5090(32GB,70B,200 tok/s),$4,699 DGX Spark(128GB,大型 MoE)。GPU 选择比 CPU 重要 10 倍。

KeyPoint: 截至2026年6月,RTX 50 系列(Blackwell)是当前世代,也是唯一仍在生产的 NVIDIA 消费级卡——RTX 40 系列已停产。RTX 5090(32 GB)是 70B 工作要购买的卡,尽管内存短缺使市场价远高于其 $1,999 MSRP。

按显存档位划分的最佳本地LLM(2026年6月)

将此作为按你的 GPU 显存档位的快速查找:

下面列出的所有模型都是开放权重的——可下载、可微调,且免费在本地运行。如果你在开放权重和专有 API 之间抉择,请参见我们的开源 vs 专有 LLM 对比,了解不同 token 量下的成本和性能权衡。

硬件决定你能运行哪些模型;提示工程决定它们的表现如何。7B 模型上结构良好的提示常常胜过 70B 模型上的草率提示。参见完整的提示工程指南,了解在任意参数量下最大化输出质量的技巧。

  • 8 GB 显存(RTX 5060 Ti、RTX 4060、Intel B580): Llama 3.1 8B Q4_K_M(4.7 GB,~70 tok/s)——推荐。Qwen3 8B(5 GB,最佳多语言+编程)。Phi-4 Mini 3.8B(2.3 GB,最快)。Gemma 3 4B(~3 GB,当前世代 Google 小模型,多模态)。避免 13B+ 模型。
  • 12 GB 显存(RTX 4070 Ti、RTX 5070、Intel B770): Llama 3.1 8B(4.7 GB,快速且有余量)。Qwen3 14B Q4_K_M(8.5 GB,预算内更好的推理)。Qwen3 8B(5 GB,最佳多语言+编程)。DeepSeek-R1 8B(5 GB,最佳推理)。避免 30B+ 和 MoE 模型,如 Llama 4 Scout(Q4 下 ~55 GB)。
  • 16 GB 显存(RTX 4080、RTX 5070 Ti、RTX 5080): Mistral Small 3.1 24B Q4_K_M(14 GB,该档位最佳质量)。用于智能体编程的 Devstral Small 24B Q4_K_M(~16 GB)。Qwen3 14B(9 GB,快速且有上下文余量)。Q2_K 下的 Llama 3.3 70B(17 GB,可行但质量下降)。
  • 24 GB 显存(RTX 5090、RTX 4090、Tesla L40): Qwen 3.6 27B Q4_K_M(~16 GB,77.2% SWE-bench,最佳稠密编程模型)。DeepSeek-R1 32B Q4_K_M(~19 GB,最佳推理)。Qwen3 32B Q5_K_M(~21 GB)。Llama 3.3 70B 在 Q4_K_M 下需要 2× 24 GB GPU。
  • 32 GB 显存(RTX 5090): Llama 3.3 70B Q4_K_M(40 GB——最后几层需要少量 CPU 卸载)。Qwen3 32B(19 GB,完整装入并剩余 13 GB)。对于智能体编程,Kimi K2 系列(MoE,1T 总 / 32B 激活,Modified MIT)是重量级选择——Kimi K2.7 Code(2026年6月)是最新版本,K2.6 是此前的通用版本;两者在该档位都需要量化和大量卸载。RTX 5090 是首张能以最少卸载装入稠密 70B 的单消费级 GPU。
  • 48+ GB 显存(RTX 6000 Ada、A100、DGX Spark): Llama 3.3 70B Q4_K_M(40 GB,完整装入)。Llama 4 Scout(17B 激活 / 109B 总 MoE,Q4 下 ~55 GB——最佳长上下文 10M-token / 多模态选择)。Llama 4 Maverick(17B 激活,400B 总,MoE)。Llama 3.3 70B Q8_0(70 GB——需要 80 GB A100)。NVIDIA DGX Spark(128 GB 统一内存)可装入每个开放权重模型,包括 Q8_0 下的 70B,并剩余 58 GB。

16 GB显存的最佳本地LLM(2026)

2026年 16 GB 显存 GPU 的最佳本地LLM是 Q4_K_M 下的 Mistral Small 3.1 24B:它使用约 13 GB,以 55 tok/sec 运行,是装入后仍有上下文余量的最强通用模型。 16 GB 卡(NVIDIA RTX 5080、RTX 5070 Ti、二手 RTX 4080 或 RTX 4090 笔记本)上限为 14-24B 模型——70B 模型需要约 40 GB,无法装入。

对于智能体编程,Devstral Small 24B Q4_K_M 可在约 16 GB 下装入;对于推理,DeepSeek-R1 14B Q8_0 是首选。更新的 Mistral Small 4(2026年3月)是将推理、视觉和编程融为一体的单一模型,是 16 GB 级默认的自然后继者。下表显示什么能装入、什么不能——"无法装入"行是 16 GB 用户最常犯的错误。

模型量化使用显存速度 (RTX 4080)最适合是否装入 16 GB?
Mistral Small 3.1 24BQ4_K_M~13 GB55 tok/sec通用聊天✅ 是
Devstral Small 24BQ4_K_M~16 GB45 tok/sec智能体编程✅ 勉强
Qwen3 14BQ8_0~15 GB45 tok/sec编程+推理✅ 是
DeepSeek-R1 14BQ8_0~15 GB40 tok/sec数学+分析✅ 是
Llama 3.1 8BFP16~16 GB70 tok/sec最快响应✅ 勉强
Llama 3.3 70BQ4_K_M~39 GB----❌ 否(需要 39 GB)
柱状图显示哪些模型能装入 16 GB 显存:Mistral Small 3.1 24B Q4_K_M(13 GB ✅),Devstral Small 24B Q4_K_M(16 GB ✅),Qwen3 14B Q8_0(15 GB ✅),Llama 3.3 70B Q4_K_M(39 GB ❌)。最佳选择:Mistral Small 3.1 24B,55 tok/sec。
柱状图显示哪些模型能装入 16 GB 显存:Mistral Small 3.1 24B Q4_K_M(13 GB ✅),Devstral Small 24B Q4_K_M(16 GB ✅),Qwen3 14B Q8_0(15 GB ✅),Llama 3.3 70B Q4_K_M(39 GB ❌)。最佳选择:Mistral Small 3.1 24B,55 tok/sec。

ProTip: 🏆 16 GB 综合最佳:Mistral Small 3.1 24B Q4_K_M,约 13 GB,55 tok/sec。对于智能体编程,使用 Devstral Small 24B(Mistral AI,法国),45 tok/sec。最佳推理:DeepSeek-R1 14B Q8_0,40 tok/sec。

⚠️Warning: RTX 4090 笔记本 GPU 有 16 GB 显存(不是 24 GB)。它们与 RTX 4080 台式机共享相同的模型上限。

KeyPoint: 何时升级到 24 GB(RTX 4090 台式机):仅当你需要 Q8 下的 32B+ 模型,或想同时运行两个模型而无需重新加载时。

哪些本地LLM在12 GB显存上运行最佳?

在 12 GB 显存 GPU(NVIDIA RTX 5070、RTX 4070 Ti 或 RTX 3060 12 GB)上,你可以在 Q8 下运行 7-8B 模型,或在 Q4_K_M 下运行 14B。 注意:MoE 模型如 Llama 4 Scout 在此无法装入——虽然 Scout 每个 token 仅激活 17B 参数,但全部 109B 总专家都必须加载到内存中,在 Q4 下需要约 55 GB。

Q8_0 下的 Llama 3.1 8B 是保守配置最可靠的选择:9 GB 显存,80 tok/sec,以及完整的指令遵循质量。Q4_K_M 下的 Qwen3 14B 也能在约 8.5 GB 下装入,并提供明显优于 8B 档的推理能力。

模型量化使用显存速度 (RTX 4070 Ti)最适合是否装入 12 GB?
Llama 3.1 8BQ8_0~9 GB80 tok/sec综合最佳,通用聊天+编程✅ 是
Qwen3 14BQ4_K_M~8.5 GB65 tok/sec预算内更好的推理✅ 是
Llama 3.2 11B VisionQ5_K_M~8 GB65 tok/sec图像+文本任务✅ 是
Qwen3 8BQ8_0~8 GB85 tok/sec最佳多语言+编程✅ 是
Mistral Small v0.3FP16~14 GB----❌ 否(FP16 下需要 14 GB)
Llama 4 Scout (109B total MoE)Q4_K_M~55 GB----❌ 否(全部 109B 专家必须加载)

ProTip: 🏆 12 GB 综合最佳:Llama 3.1 8B Q8_0,约 9 GB,80 tok/sec。同一张卡上要获得更好的推理,使用 Qwen3 14B Q4_K_M,约 8.5 GB。Llama 4 Scout 无法装入——其 109B 总 MoE 专家在 Q4 下需要约 55 GB。

KeyPoint: RTX 3060 12GB 是预算入门点(二手 ~$200)。它能运行所有 12 GB 模型,但由于较旧的内存架构,速度为 ~60-70 tok/sec,而 RTX 4070 Ti 为 ~80-90 tok/sec。

哪些70B模型真正能装入24 GB显存(RTX 4090)?

以可用的 Q4_K_M 质量在本地运行 70B 模型的硬件要求是约 40 GB 显存——因此单张 24 GB 的 RTX 4090 不够用。 2026年运行 70B 的真正选择是:2× RTX 5090(合计 64 GB)、配轻度 CPU 卸载的 RTX 5090(32 GB)、48-80 GB 的服务器 GPU(RTX 6000 Ada / A100),或 Apple M5 Max / 128 GB 统一内存系统。常见的误解是"Q4 很小"——在 70B 参数下,即使 Q4 也需要约 40 GB。

在单张 24 GB 卡上,更好的策略是 27-32B 模型,它提供强劲质量并能舒适装入且有上下文余量。Q4_K_M 下的 Qwen3.6 27B 是最佳稠密编程模型(77.2% SWE-bench);DeepSeek-R1 32B 是最佳推理选择。24 GB GPU 只能在 Q2_K 下容纳 70B,此时质量明显下降。参见如何在 24 GB 显存上运行 70B 模型,了解卸载和双 GPU 技巧。

模型量化所需显存是否装入 24 GB?速度 (RTX 4090)备注
Qwen 3.6 27BQ4_K_M~16 GB✅ 是55 tok/sec最佳稠密编程模型,77.2% SWE-bench
DeepSeek-R1 32BQ4_K_M~19 GB✅ 是60 tok/sec最佳推理,综合质量强劲
Qwen3 32BQ5_K_M~21 GB✅ 是55 tok/sec高质量,出色的编程+指令
Qwen3 32BQ8_0~34 GB❌ 否--需要 48 GB GPU
Llama 3.3 70BQ2_K~24 GB⚠️ 勉强30 tok/sec可装入但 Q2 质量明显下降
Llama 3.3 70BQ4_K_M~39 GB❌ 否--需要 2× RTX 4090 或 A100 80 GB
显存要求 vs RTX 4090 24 GB 上限:Qwen 3.6 27B Q4_K_M(16 GB ✅),DeepSeek-R1 32B Q4_K_M(19 GB ✅),Qwen3 32B Q5_K_M(21 GB ✅),Llama 3.3 70B Q4_K_M(39 GB ❌——超出 24 GB 达 63%)。甜点:27-32B 模型在 Q4-Q5。
显存要求 vs RTX 4090 24 GB 上限:Qwen 3.6 27B Q4_K_M(16 GB ✅),DeepSeek-R1 32B Q4_K_M(19 GB ✅),Qwen3 32B Q5_K_M(21 GB ✅),Llama 3.3 70B Q4_K_M(39 GB ❌——超出 24 GB 达 63%)。甜点:27-32B 模型在 Q4-Q5。

KeyPoint: 🏆 RTX 4090(24 GB)最佳:Qwen 3.6 27B Q4_K_M(~16 GB,77.2% SWE-bench)作为最佳稠密编程模型。对于推理:DeepSeek-R1 32B Q4_K_M(~19 GB,60 tok/sec)。以远少的显存胜过 Llama 3.3 70B Q2_K。

⚠️Warning: 如果你确实需要 Q4+ 的 70B 质量,RTX 4090 不是合适的 GPU。你需要 2× RTX 4090(通过张量并行合计 48 GB)或 RTX 6000 Ada(48 GB)。在单张 4090 上以 Q2_K 运行 70B 会明显损害输出质量。

你需要什么CPU和内存?

有了专用 GPU,CPU 和内存就是次要组件。 GPU 处理矩阵运算;CPU/内存管理上下文准备。要全面对比 GPU vs CPU vs Apple Silicon 推理速度,请参见 GPU vs CPU vs Apple Silicon 指南

最低 CPU:8 核处理器(Intel Core i7 14 代、AMD Ryzen 7 7700X 或更新)。较旧的 CPU 会增加 20%+ 的延迟。

内存:最低 16 GB(配 GPU)。如果无 GPU 运行,推荐 32+ GB。当存在 GPU 时,内存不直接限制模型大小。

存储:500 GB SSD 用于模型文件和操作系统。首选 M.2 NVMe(更快的模型加载)。

哪些模型在无GPU的16 GB系统内存上运行良好?

无 GPU 时,配备 16 GB 系统内存的机器可以使用 CPU 推理以 8-20 tokens/sec 运行 3B-7B 模型。 瓶颈是内存带宽,而非内存容量——CPU 的带宽远低于 GPU,这就是推理慢 5-10 倍的原因。

在 16 GB 系统内存上,实用法则是:模型文件大小 + 4 GB 操作系统开销 ≤ 16 GB。Q4_K_M 下的 7B 模型(4.9 GB)可装入,但为长上下文留下的余量很少。下表显示截至2026年6月的现实选择。

要查看涵盖纯CPU、4 GB、6 GB 和 8 GB 显存档位并带真实基准的完整速度优化模型指南,请参见 **低端PC最快本地LLM**。

模型量化使用内存速度 (Ryzen 9 7950X)最适合备注
Gemma 2 2BQ8_0~2.7 GB28 tok/sec最快,极少内存为操作系统留下 13 GB 空闲
Phi-4 Mini 3.8BQ4_K_M~2.5 GB25 tok/secCPU 上的编程最佳质量-内存比
Llama 3.2 3BQ8_0~3.8 GB20 tok/sec通用聊天,低内存可靠,广泛支持
Llama 3.1 8BQ4_K_M~4.9 GB12 tok/sec最佳 CPU 质量12 tok/sec 较慢但可用于批处理任务
Llama 3.1 8BQ8_0~9 GB8 tok/secCPU 上的最高质量对大多数 CPU 而言太慢,不适合交互使用
Ryzen 9 7950X 上的纯CPU推理速度:Gemma 2 2B Q8_0(28 tok/sec 最快),Phi-4 Mini Q4_K_M(25 tok/sec 最佳选择),Llama 3.1 8B Q8_0(8 tok/sec)。二手 RTX 3060($200)快 5-8 倍。
Ryzen 9 7950X 上的纯CPU推理速度:Gemma 2 2B Q8_0(28 tok/sec 最快),Phi-4 Mini Q4_K_M(25 tok/sec 最佳选择),Llama 3.1 8B Q8_0(8 tok/sec)。二手 RTX 3060($200)快 5-8 倍。

ProTip: 🏆 16 GB 内存、无 GPU 最佳:Phi-4 Mini 3.8B Q4_K_M(2.5 GB,25 tok/sec)。以其体量提供出人意料的强劲编程和推理能力。

KeyPoint: CPU vs GPU 速度现实:二手 NVIDIA RTX 3060 12 GB(~$200)以 70+ tok/sec 运行 Llama 3.1 8B——比纯CPU推理的 Ryzen 9 7950X 快 5-8 倍。如果速度重要,先买 GPU 再加内存。

⚠️Warning: 在 16 GB 内存上以纯CPU运行 7B 模型,为操作系统和浏览器留下的内存不到 7 GB。在长对话上下文(32k+ token)下,模型文件会超出其基础大小并可能导致内存耗尽。在 16 GB 纯CPU机器上将上下文大小保持在 4096 以下。

你需要多少存储?

模型文件很大:4 位量化的 7B 模型为 4-5 GB。 围绕你想在本地保留的模型数量和大小来规划存储。

  • 500 GB SSD:操作系统 + 1-2 个小模型(3B、7B)
  • 1 TB SSD:操作系统 + 3-5 个模型(7B 和 13B 混合)
  • 2 TB SSD:操作系统 + 10+ 个模型(各种规模)
  • 4 TB NVMe RAID:生产配置,快速模型加载

你应该购买什么硬件配置?

从零构建本地LLM机器意味着优先考虑 GPU,然后是 CPU 和内存。 这里有三种现实配置。对于多 GPU 配置,参见多GPU本地LLM指南。对于家庭自动化配置,紧凑型迷你PC通常比完整台式机配置更合适——参见配本地AI的Home Assistant最佳迷你PC →

预算GPUCPU内存模型成本
$1500 (入门)RTX 4070 Tii7 1370016 GB7-13B现实
$2500 (稳健)RTX 4080i7 14700K32 GB13-30B推荐
$4000 (高端)2× RTX 4090Ryzen 9 7950X128 GB任意 (70B+)个人用过剩
三种配置方案:$1500 入门级(RTX 4070 Ti,i7 13700,16GB)用于 7-13B 模型,$2500 稳健配置(RTX 4080,i7 14700K,32GB)用于 13-30B,$4000 高端(2× RTX 4090,Ryzen 9,128GB)用于任意模型。中端提供最佳性价比。
三种配置方案:$1500 入门级(RTX 4070 Ti,i7 13700,16GB)用于 7-13B 模型,$2500 稳健配置(RTX 4080,i7 14700K,32GB)用于 13-30B,$4000 高端(2× RTX 4090,Ryzen 9,128GB)用于任意模型。中端提供最佳性价比。

如果你买不起硬件怎么办?

如果 $250–400 的 GPU 超出你的预算,或你的笔记本太旧无法支持现代推理引擎,本地LLM在2026年对你来说可能并不划算

计算真实成本:

  • 本地:$800–2,000 的前期硬件 + 电费 + 2–3 年的维护
  • 云端:典型开发者使用 $5–50/月(Llama API 或 GPT-5.5 mini)

对于轻度用户(每月 < 100,000 token),云端 API 成本为 $5–10/月且无需硬件。对于重度用户(每月 > 10M token),本地在 6–12 个月内回本。

对比完整的本地 vs 云端成本和性能权衡**,找到你的盈亏平衡点。许多开发者发现,对于其实际使用模式,云端更便宜。

已经在推荐显存档位以下选购?参见低端PC最佳本地AI应用,了解哪些模型和应用组合真正能在 8 GB 或更少上运行。

如何在RTX 4070 Ti上最大化llama.cpp速度?

通过正确设置,RTX 4070 Ti 上的 llama.cpp 在 Llama 3.1 8B Q4_K_M 上可达到 85-95 tokens/sec——是默认开箱速度的两倍多。 影响最大的单个标志是 `--n-gpu-layers 99`,它将所有模型层卸载到 GPU。没有它,层会回退到 CPU,造成严重瓶颈。

这些设置直接适用于 llama.cpp,也适用于 Ollama(其内部使用 llama.cpp)。如果驱动正确安装,Ollama 会在 NVIDIA 硬件上自动设置 `--n-gpu-layers 99`。

  • Q4_K_M 在 RTX 4070 Ti 上比 Q4_0 快 15-20%。 K_M 变体使用混合量化,NVIDIA 张量核心对其加速更高效。当两者都可用时,始终选择 Q4_K_M 而非 Q4_0。
  • IQ4_XS 是最小的格式(比 Q4_K_M 小约 8%),质量损失极小。在 Q4_K_M 临界时,可用于将 Qwen3 14B 装入 12 GB 显存。
  • Q5_K_M 在 NVIDIA GPU 上的速度几乎与 Q4_K_M 相同(慢 < 5%),同时提供明显更好的输出质量。当你有 20% 显存余量时值得使用。
标志作用影响默认备注
--n-gpu-layers 99将所有层卸载到 GPU+100-150% 速度0 (仅 CPU)最重要的标志——始终首先设置此项
--threads [cores]用于提示处理的 CPU 线程+10-15% 速度所有线程(含超线程)仅设置为物理核心数。超线程会损害推理。
--ctx-size 2048KV 缓存 / 上下文窗口大小节省 0.5-8 GB 显存40962048 = ~0.5 GB 额外显存。32768 = ~8 GB 额外。仅在需要时增加。
--n-batch 512提示处理批大小+5-10% 吞吐量512良好默认值。如显存允许,批处理工作负载增至 1024。
--flash-attnFlash Attention 2 内核长上下文下 -20-30% 显存禁用自 llama.cpp b2900 起可用。为 > 8k token 的上下文减少显存。
默认 llama.cpp 配置:~40 tok/sec。优化后(--n-gpu-layers 99 + --ctx-size 2048 + --flash-attn):~90 tok/sec——在运行 Llama 3.1 8B Q4_K_M 的 RTX 4070 Ti 上提速 125%。
默认 llama.cpp 配置:~40 tok/sec。优化后(--n-gpu-layers 99 + --ctx-size 2048 + --flash-attn):~90 tok/sec——在运行 Llama 3.1 8B Q4_K_M 的 RTX 4070 Ti 上提速 125%。

ProTip: 运行 `ollama ps` 确认你的模型加载在 GPU 上。如果生成时 `nvidia-smi` 中 GPU 利用率显示 0%,说明驱动未正确路由到 CUDA。重新安装 NVIDIA CUDA Toolkit 并重启 Ollama。

KeyPoint: RTX 4070 Ti 速度参考:Llama 3.1 8B Q4_K_M = 85-95 tok/sec。Llama 3.3 13B Q4_K_M = 60-70 tok/sec。Qwen3 7B Q8_0 = 90-95 tok/sec。这些假设 --n-gpu-layers 99 和 --ctx-size 2048。

⚠️Warning: 在 12 GB GPU 上将 --ctx-size 增加到 8192 以上,如果 KV 缓存耗尽剩余显存,会导致模型层卸载回 CPU。如果长对话时速度突然下降,请减小上下文大小或使用 --flash-attn。

Mac硬件能运行本地LLM吗?

Apple Silicon(M 系列)使用 CPU 和 GPU 共享的统一内存高效运行本地LLM。 基础 M5 于 2025 年 10 月发布;M5 Pro 和 M5 Max 于 2026 年 3 月跟进。Apple 测得 M5 Pro/Max 相比 M4 世代的 LLM 提示处理(首 token 时间)快达 4 倍,尽管 token 生成的提升更为温和。

配备 128 GB 统一内存(高达 614 GB/s)的 M5 Max 可在笔记本或 Mac Studio 形态中舒适地运行 Q4_K_M 下的 70B 模型——大约 12-15 tok/sec。M5 Pro(高达 64 GB 统一内存,307 GB/s)处理 32B 模型并为 KV 缓存和多任务留有充裕余量。截至 2026 年 6 月,M5 Max 是出货的顶级 Apple Silicon;传闻有 M5 Ultra Mac Studio 但尚未发布。

在 8 GB 内存的 MacBook 上,坚持使用 3-4B 模型。 由于统一内存在操作系统和模型之间共享,8 GB 实际上能容纳通过 Ollama 或 llama.cpp(两者都自动使用 Metal GPU 后端)运行 Q4_K_M 的 Phi-4 Mini 3.8B、Llama 3.2 3B 或 Gemma 3 4B。7B 模型在 8 GB 上处于临界且在负载下会交换;16 GB 是 Mac 上 7-8B 模型的舒适最低配置。

MacGPU内存最适合局限
M-series 8 GB (Air / base)8 GB 统一3-4B 模型 (Phi-4 Mini, Gemma 3 4B)7B 临界;操作系统争抢内存
M3 Pro MacBook Pro 16"18 GB 统一7-8B 模型(快速)可缓慢运行 14B
M4 Max36-128 GB 统一13-32B 模型仅顶配 128 GB 才能运行 70B
M5 Pro (MacBook Pro)64 GB 统一, 307 GB/s舒适运行 32B 模型Llama 4 Scout 运行良好
M5 Max (MacBook Pro / Studio)128 GB 统一, 高达 614 GB/sQ4_K_M 下的 70B 模型70B 上 ~12-15 tok/sec
Mac 硬件对比:8 GB M 系列(3-4B 模型),M3 Pro 16"(18GB,7-8B),M4 Max(36-128GB,13-32B),M5 Pro(64GB,32B),M5 Max(128GB,Q4_K_M 下的 70B ~12-15 tok/sec)。16 GB 统一内存是 Mac 上 7B 模型的舒适最低配置。
Mac 硬件对比:8 GB M 系列(3-4B 模型),M3 Pro 16"(18GB,7-8B),M4 Max(36-128GB,13-32B),M5 Pro(64GB,32B),M5 Max(128GB,Q4_K_M 下的 70B ~12-15 tok/sec)。16 GB 统一内存是 Mac 上 7B 模型的舒适最低配置。

何时应使用服务器 vs 消费级硬件?

对于生产部署(24/7 运行、多用户),推荐服务器级硬件而非消费级 GPU。 消费级硬件为游戏优化,而非持续推理。

  • 消费级(RTX 5090):~$2,000 MSRP(2026 年市场价 ~$4,000),32 GB 显存,单用户,在持续负载下易热降频。
  • 服务器级(RTX 6000 Ada):~$7,000,48 GB 显存,专为 24/7 使用设计,更好的散热,纠错。
  • 推荐:从 RTX 5090 起步。如果为多用户 24/7 运行 70B 模型,升级到双 A100 或 RTX 6000 Ada。
消费级 vs 服务器硬件:RTX 5090(市场价 ~$4,000,32GB,单用户,兼职)vs RTX 6000 Ada($7,000+,48GB,多用户,24/7 工作负荷)。从消费级硬件起步;仅在运行生产服务时升级到服务器级。
消费级 vs 服务器硬件:RTX 5090(市场价 ~$4,000,32GB,单用户,兼职)vs RTX 6000 Ada($7,000+,48GB,多用户,24/7 工作负荷)。从消费级硬件起步;仅在运行生产服务时升级到服务器级。

NVIDIA DGX Spark:128 GB桌面AI计算机

NVIDIA DGX Spark(截至2026年2月为 $4,699,高于其 $3,999 的发布价)是一台紧凑的 128 GB 桌面 AI 计算机,可将 Llama 3.3 70B 在 Q8_0 下完整保存在统一内存中。 配备 128 GB 的 Apple Mac Studio / MacBook Pro 和 AMD Strix Halo 128 GB 系统也能做到,因此它并非独一无二——但它搭载 NVIDIA 的 CUDA 软件栈。

基于 GB10 Grace Blackwell Superchip 构建,DGX Spark 于 2025 年 10 月发布,配备 128 GB LPDDR5x 统一内存。注意:其真实内存带宽约为 273 GB/s,因此稠密 70B 的 token 生成很慢——独立测试(LMSYS)测得 Llama 70B 上约 3 tok/sec。标称的 FP4 计算数字并不转化为快速的单流解码。DGX Spark 最适合大型混合专家模型(Llama 4 Scout/Maverick、Kimi K2),其中每个 token 仅激活一小部分参数。

规格数值
统一内存128 GB LPDDR5x
Llama 3.3 70B at Q4_K_M✅ 可装入 (40 GB)
Llama 3.3 70B at Q8_0✅ 可装入 (70 GB)
推理速度 (70B)~3 tok/s
价格$4,699
操作系统DGX OS (Ubuntu),预装 Ollama
内存带宽~273 GB/s (真实)
vs RTX 5090内存多 4 倍,但带宽低得多

KeyPoint: 由于内存带宽高得多,独立 GPU(RTX 5090 或双 5090)在稠密模型上生成 token 的速度远快于 DGX Spark。为容量选择 DGX Spark——将超大型 MoE 模型放在一个机箱中——而非为单流 70B 速度。

最常见的硬件错误有哪些?

  • 在有 GPU 可用时买纯 CPU。 一张 $600 的 RTX 4070 Ti 会胜过一颗 $2000 的 CPU。GPU 主导 LLM 速度。
  • 未计入显存开销。 模型文件大小 + 系统开销 + 上下文 = 使用的总显存。始终多买 25% 于模型大小。
  • 假设所有 70B 模型都能装入 40GB 显存。 它们能装入,仅勉强,且仅在 Q4(4 位)量化下。Q5 需要 45+ GB。
  • 忽视电源和散热。 RTX 4090 功耗 575W。需要 1200W PSU 和良好的机箱风道。
  • 以为旧 GPU 能用。 RTX 2080 比 RTX 4070 Ti 慢 10 倍。现代 GPU 架构显著优于前几代。
  • 未在模型权重之上计入 KV 缓存显存: Q4_K_M 下的 7B 模型权重为 4.7 GB——但加上 32K 上下文窗口,KV 缓存再增加约 4 GB,总计约 8.7 GB。在 8 GB 卡上这会导致 OOM 错误。始终根据上下文长度在模型大小上增加 25-100%。
  • 将硬件成本视为唯一成本: 如果你买不起 16+ GB 内存或专用 GPU,对于低用量,云端 API 成本更低(每 1K token $0.01–0.05)。完整权衡参见本地LLM vs 云端:成本分析

哪些区域合规规则适用于本地LLM硬件?

欧盟(GDPR + 欧盟AI法案): 在本地运行 LLM 将所有推理数据保留在你的基础设施内,消除了 GDPR 第 44 条下的跨境数据传输顾虑。欧盟 AI 法案对独立高风险 AI 系统(附件 III)的义务原定于 2026 年 8 月 2 日起适用,但 2026 年 5 月临时达成、截至 2026 年 6 月等待正式通过的"AI 数字综合法案"将该日期推迟至 2027 年 12 月 2 日(嵌入受监管产品中的高风险 AI 推迟至 2028 年 8 月 2 日)。AI 法案第 50 条的透明度义务仍按原计划适用。本地硬件默认满足数据驻留要求。

日本(APPI): 日本 2022 年的 APPI 修订收紧了违规通知和跨境传输规则,但未施加 AI 特定的数据最小化要求(它依赖一般的目的限制义务)。与 AI 更相关的是日本 2025 年的 APPI 改革方案及其首部 AI 法律——AI 促进法(自 2025 年 6 月起生效),这是一个以创新为先、无处罚的框架。本地 LLM 硬件将个人数据保留在你的基础设施内,用于文档处理和客户支持自动化。

中国: 中国国家互联网信息办公室(CAC)的《生成式人工智能服务管理暂行办法》(2023 年 8 月生效)要求具有舆论影响力的提供者完成 CAC 安全评估和算法备案。自 2025 年 9 月 1 日起,根据 CAC 标识办法和国家标准 GB 45438-2025,中国还强制要求对 AI 生成内容进行标识。使用开放权重模型在本地硬件上运行可避免内部企业使用时基于 API 的合规风险。

关于本地LLM硬件的常见问题

我能在笔记本上运行 70B 模型吗?

只能通过重度量化(Q2,2 位)和 CPU 回退。不切实际。笔记本适合 7B 模型。对于 70B,使用配 RTX 4090+ 的台式机。

RTX 4090 对个人使用是过剩吗?

如果你运行 70B 模型或同时运行多个模型则不会。仅用于 7B 聊天,RTX 4070 Ti 就足够。如果你想要灵活性,RTX 4090 是面向未来的。

我应该买 RTX 5090 还是等 RTX 6090?

RTX 5090 已上市(2026 年初)。RTX 6000 Ada 服务器 GPU 也很稳健。除非你有无限预算,RTX 5090 或 4090 都很出色。

量化如何影响质量?

FP16 = 100% 质量(基准),Q8 = 99%,Q5 = 95%,Q4 = 90-95%。对于大多数任务,Q4 与 FP16 无法区分。

我以后能升级 GPU 吗?

能。现在从 RTX 4070 Ti 起步,如有需要 2 年后升级到 RTX 5090。GPU 是最易更换的组件。

在本地运行 7B 模型需要多少内存?

8 GB 内存是 7B 模型的绝对最低。16 GB 推荐用于与浏览器和操作系统一起的舒适使用。32 GB 为更大的上下文窗口和多任务提供余量。

我能在 Apple Silicon(M1/M2/M3/M4/M5)上运行本地LLM吗?

能。Apple Silicon 使用 CPU 和 GPU 共享的统一内存。M5 Pro(64 GB,307 GB/s)能很好地运行 32B 模型。M5 Max(128 GB,高达 614 GB/s)以大约 12-15 tok/sec 运行 Q4_K_M 下的 70B。在 8 GB Mac 上,坚持使用 3-4B 模型。

配 M3 和 8 GB 内存的 MacBook 最佳 llama.cpp 模型是什么?

在配 8 GB 内存的 MacBook M3 上,运行 Q4_K_M 下的 3-4B 模型:Phi-4 Mini 3.8B、Llama 3.2 3B 或 Gemma 3 4B。使用 Ollama 或 llama.cpp——两者都自动使用 Metal GPU 后端。7B 模型处于临界且在负载下会交换;将上下文保持在 4096 token 以下。在 Mac 上舒适使用 7-8B,16 GB 统一内存是实际最低。

无 GPU 时本地LLM最佳的 CPU 是什么?

高核心数且大 L3 缓存的 CPU:AMD Ryzen 9 7950X 或 Intel Core i9-14900K。7B 模型预期 5-15 tokens/sec。CPU 推理比 GPU 慢 3-5 倍。

存储速度会影响本地LLM性能吗?

会,在模型加载时。NVMe SSD(3-7 GB/s)在 2-5 秒内加载 7B 模型,而 HDD 需 20-60 秒。加载后的推理速度不受存储影响。

我能用多个 GPU 运行更大的模型吗?

能,通过张量并行。两张 RTX 5090(各 32 GB)提供 64 GB 显存,足以运行 Q4_K_M 下的 70B 模型。Ollama 和 llama.cpp 通过跨卡拆分 --n-gpu-layers 支持多 GPU。

2026 年 16 GB 显存最佳本地LLM是什么?

Mistral Small 3.1 24B Q4_K_M(13 GB,55 tok/sec)是 RTX 5080 / RTX 5070 Ti / RTX 4090 笔记本的综合最佳。对于智能体编程:Devstral Small 24B Q4_K_M(16 GB,45 tok/sec)。对于推理:DeepSeek-R1 14B(15 GB,40 tok/sec)。更新的 Mistral Small 4(2026 年 3 月)是单一模型后继者。Llama 3.3 70B 无法装入——它在 Q4_K_M 下需要约 40 GB。

单张 RTX 4090 能以良好质量运行 70B 模型吗?

不能——在 Q4_K_M 质量下不行。Llama 3.3 70B 在 Q4_K_M 下需要约 39 GB 显存。RTX 4090 有 24 GB。你可以在 Q2_K(~24 GB)下运行它,但质量明显下降。更好的选择:Qwen 3.6 27B Q4_K_M(~16 GB,77.2% SWE-bench,最佳稠密编程)或 DeepSeek-R1 32B Q4_K_M(~19 GB,最佳推理)。

无 GPU 时 16 GB 系统内存最佳本地LLM是什么?

Phi-4 Mini 3.8B Q4_K_M(2.5 GB 内存,在 Ryzen 9 7950X 上 ~25 tok/sec)是 16 GB 系统内存上纯CPU推理的最佳选择。Gemma 2 2B Q8 最快,约 28 tok/sec。Llama 3.1 8B Q4_K_M(4.9 GB)也能装入,但以约 12 tok/sec 运行——交互使用较慢。

来源

了解了你的硬件需求?找到适合本地LLM的最佳预算GPU。

本地LLM的最佳预算GPU →

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM