关键要点
- 显存是决定性约束。 装不进显存的模型要么加载失败,要么溢出到系统内存,慢到无法交互使用。先选显存匹配目标模型的档次,再在该档次内优化速度。
- 2026 年价格大涨。 内存短缺把所有市场的显卡价格推高到建议零售价的 1.5 到 2 倍——RTX 5090 售价约 $3,949,而非其 $1,999 的发布价。把本文每个价格当作 2026 年 5 月的快照,并依靠二手市场。
- 预算之选:NVIDIA RTX 3060 12 GB(二手 $150-250,全新 $350-680)——以 15-20 tok/s 运行任何 7B 模型,并以 Q4 运行大多数 13B 模型。2026 年入门本地大模型的最佳性价比。
- 中端之选:NVIDIA RTX 4060 Ti 16 GB(全新约 $424,二手 $290)——16 GB 显存可容纳 14B 模型并留有上下文余量,也是最接近建议零售价的显卡,受涨价影响最小。
- 高端之选:NVIDIA RTX 4080 Super 16 GB(约 $1,100-1,200)——最快的 16 GB 显卡,经 2026 年价格变动后,其售价与更慢的 RTX 4070 Ti Super($1,179)大致相当。
- 发烧之选:NVIDIA RTX 4090 24 GB / RTX 5090 32 GB——RTX 4090($2,480-2,755)能运行 33B 模型;RTX 5090(约 $3,949)是唯一无需双卡构建就能以 Q4 容纳 70B 模型的消费级显卡。
- AMD 可行但门槛更高。 RX 6700 XT(12 GB)和 RX 7800 XT(16 GB)在每美元显存上有竞争力,但 ROCm 配置比 NVIDIA CUDA 多花数小时。
- 功耗随档次上升。 RTX 3060 功耗 170 W;RTX 5090 功耗 575 W,需要 850-1000 W 电源。把电源和显卡一起纳入预算。
速览事实
- 预算档($130-680): RTX 3060 12 GB 或 RX 6700 XT 12 GB——运行 7B 和大多数 13B 模型。
- 中端档($420-520): RTX 4060 Ti 16 GB 或 RX 7800 XT 16 GB——轻松运行 14B 模型。
- 高端档($1,100-1,200): RTX 4080 Super 16 GB 或 RTX 4070 Ti Super 16 GB——快速 14B 推理,轻量 22B 工作。
- 发烧档($2,480 起): RTX 4090 24 GB 或 RTX 5090 32 GB——33B 模型,5090 上可 Q4 运行 70B。
- Q4_K_M 下的显存经验法则: 每十亿参数约 0.6 GB,外加 2-4 GB 用于上下文和工具。
- 功耗范围: RTX 3060 170 W、RTX 4060 Ti 165 W、RTX 4070 Ti Super 285 W、RTX 4080 Super 320 W、RTX 4090 450 W、RTX 5090 575 W。
- 2026 年价格实况: 内存短缺把价格推高到建议零售价的 1.5 到 2 倍;二手市场往往性价比更高。
编辑推荐:RTX 4080 Super 16 GB
对于想要一款耐用、且预算能超过 $1,000 的买家,NVIDIA RTX 4080 Super 16 GB 是兼顾显存、速度和价格的选择。 它的 16 GB 显存能容纳每一款 14B 模型并留有上下文余量,是这里最快的 16 GB 显卡,约 120 tok/s,售价约 $1,100-1,200,经 2026 年价格变动后与更慢的 RTX 4070 Ti Super($1,179)大致相当——是高端档明确的性价比之选。如果你的预算固定在 $600 以下,RTX 4060 Ti 16 GB 是性价比之选——它受 2026 年涨价冲击最小。只有在确实需要 33B 或 70B 模型时才花更多钱。
📌Note: 本编辑推荐仅反映价格与能力之比。PromptQuorum 未加入任何联盟营销计划,下方链接不带任何联盟标签——它们只是不产生佣金的普通参考链接。
2026 年八款显卡运行本地大模型的对比
显存和功耗数字为厂商规格。RTX 3060、RTX 4080 Super、RTX 4090、RTX 5090 的推理速度为 PromptQuorum 硬件测试实测的 7B Q4 数值;RTX 4060 Ti 16 GB、RX 7800 XT、RTX 4070 Ti Super 的数字为系列级别估算。价格为 2026 年 5 月美国快照——2026 年内存短缺把价格推高到建议零售价的 1.5 到 2 倍,购买前请重新核对。
📍 简单一句话
对本地大模型而言,显卡的显存决定你能运行哪些模型,其每秒 token 决定它们回答的快慢——先按前者买,再优化后者。
💬 简单来说
把显存想成桌面的大小,把模型想成你放在桌上的东西。更快的显卡能更快清空桌面,但如果模型根本放不上桌,速度就无从谈起。先选桌面足够大的档次。
| 显卡 | 显存 | 速度(7B Q4) | 功耗 | 价格(2026 年 5 月) | 最适合 |
|---|---|---|---|---|---|
| RTX 3060 12 GB | 12 GB | 15-20 tok/s | 170 W | 全新 $350-680 / 二手 $150-250 | 预算入门——任何 7B 模型 |
| RX 6700 XT | 12 GB | 10-14 tok/s | 230 W | 二手 $130-200(全新已停产) | 最便宜的显存,接受 AMD 配置 |
| RTX 4060 Ti 16 GB | 16 GB | 约 20-25 tok/s | 165 W | 全新 $424 / 二手 $290 | 中端档——14B 模型,低功耗 |
| RX 7800 XT | 16 GB | 约 18-24 tok/s(估算) | 263 W | 全新约 $480-520 | AMD 平台的 16 GB,接受 ROCm 配置 |
| RTX 4070 Ti Super | 16 GB | 约 80-90 tok/s(估算) | 285 W | 全新 $1,179 / 二手 $770 | 快速 14B,较低功耗 |
| RTX 4080 Super | 16 GB | 约 120 tok/s | 320 W | 全新约 $1,100-1,200 / 二手约 $900 | 编辑推荐——最快的 16 GB |
| RTX 4090 | 24 GB | 约 150 tok/s | 450 W | 全新 $2,755 / 二手 $2,480 | 33B 模型,双卡 70B |
| RTX 5090 | 32 GB | 约 160 tok/s | 575 W | 全新 $3,949 / 二手 $3,999 | 单卡 Q4 运行 70B |
你该买哪款显卡?
你最大的目标模型决定档次;你的预算决定该档次内选 NVIDIA 还是 AMD。 找到与你情况相符的那一行。
| 你的情况 | 买这款 |
|---|---|
| 我预算不到 $400,想运行 7B 模型 | RTX 3060 12 GB(二手) |
| 我想要能运行大模型的最便宜显卡,并接受配置工作 | RX 6700 XT(二手) |
| 我想在功耗预算紧张的情况下运行 14B 模型 | RTX 4060 Ti 16 GB |
| 我想要一款能快速运行 14B 并用上数年的显卡 | RTX 4070 Ti Super 16 GB |
| 我想要最快的 16 GB 显卡,价格其次 | RTX 4080 Super 16 GB |
| 我需要 33B 模型,或计划将来做双卡 70B 构建 | RTX 4090 24 GB |
| 我需要一张能以 Q4 运行 70B 模型的单卡 | RTX 5090 32 GB |
| 我拿不定主意,想要最稳妥的第一张显卡 | RTX 3060 12 GB——不够用以后再升级 |
预算档($130-680):RTX 3060 12 GB 和 RX 6700 XT
预算档能运行任何 7B 模型和大多数 13B 模型——对大多数首次使用本地大模型的用户来说,这就是他们需要的全部能力。 RTX 3060 12 GB 是推荐之选;如果你接受 AMD 配置的摩擦,RX 6700 XT 是更便宜的替代。这一档次中二手市场最为重要——全新价格随 2026 年涨价大幅上升。
- RTX 3060 12 GB(二手 $150-250,全新 $350-680): 12 GB 显存,170 W,7B 模型以 Q4 运行 15-20 tok/s。能运行 Mistral 7B、Qwen3 8B、DeepSeek-R1 7B 和大多数 13B 模型。要买的是 12 GB 版本——避开 6 GB 版本,它只能运行 3B 模型。买二手——全新货源已停产且价格虚高。
- RX 6700 XT(二手 $130-200,全新已停产): 12 GB 显存,230 W,7B 模型 10-14 tok/s。进入本地大模型最便宜的方式,但比 RTX 3060 慢,且依赖 AMD ROCm,会增加配置时间。
- 为何买这一档: 入门成本最低,RTX 3060 功耗低,且有足够显存运行覆盖通用对话、编程辅助和摘要的 7B-13B 模型。
- 为何跳过这一档: 如果你已经知道想要 14B 或更大的模型,预算档会在几周内让你受挫——不如直接从中端档开始。
💡Tip: 务必买 12 GB 版本的 RTX 3060。6 GB 版 RTX 3060 在商品页看起来相似,但只能容纳 3B 模型——参数量减半,就是可用助手和玩具之间的区别。
⚠️Warning: RX 6700 XT 是这里最便宜的显卡,但要为 Linux 上的 ROCm 配置留出 3-5 小时。如果你的时间比省下的 $30-80 更值钱,就买 NVIDIA 显卡。
中端档($420-520):RTX 4060 Ti 16 GB 和 RX 7800 XT
中端档存在的唯一理由是:16 GB 显存能容纳 12 GB 显卡无法在可用上下文下装下的 14B 模型。 如果 14B 级别的模型是你的目标,这是能正确运行它们的最便宜档次——而且 RTX 4060 Ti 16 GB 值得注意的一点是,它在 2026 年涨价中仍接近建议零售价。
- RTX 4060 Ti 16 GB(全新 $424 / 二手 $290): 16 GB 显存,165 W,7B 模型约 20-25 tok/s。它与 8 GB 版 RTX 4060 Ti 使用同一颗 GPU 核心,因此每 token 速度相近——16 GB 版本买的是容量,不是原始速度。其 165 W 功耗相对于能力是本指南中最低的,也是受涨价虚高最小的显卡。
- RX 7800 XT(全新约 $480-520): 16 GB 显存,263 W。本指南未对它单独做基准测试;速度预计在 RTX 4060 Ti 范围内,代价是 AMD ROCm 配置。
- 为何买这一档: 你想要 14B 模型、想要低功耗(RTX 4060 Ti),或想以尽可能低的价格获得 16 GB。
- 为何跳过这一档: 如果 7B 模型够用,预算档能省 $200;如果你想要快速的 14B 推理,高端档明显更快。
📌Note: RTX 4060 Ti 16 GB 相对 8 GB 版本是容量升级,不是速度升级。买它是因为你需要装下 14B 模型,而不是因为你期待更高的每秒 token。
高端档($1,100-1,200):RTX 4080 Super 和 RTX 4070 Ti Super
高端档保持 16 GB 显存,但加上了让 7B-14B 模型感觉即时、让 22B 模型可用的速度。 两款显卡装下的模型与中端档相同——你为每秒 token 付费,而非容量。2026 年涨价大幅拉开了这一档与中端档的差距。
- RTX 4080 Super 16 GB(约 $1,100-1,200): 16 GB 显存,320 W,7B 模型约 120 tok/s。编辑推荐——最快的 16 GB 显卡,经 2026 年价格变动后与更慢的 RTX 4070 Ti Super 大致同价。
- RTX 4070 Ti Super 16 GB(全新 $1,179 / 二手 $770): 16 GB 显存,285 W。在几乎相同的全新价格下略慢于 RTX 4080 Super——为其更低的 285 W 功耗而选它,或以约 $770 二手买入,作为最便宜的快速 16 GB 显卡。
- 为何买这一档: 你持续运行 14B 模型并希望它们即时响应,或你做轻量 22B 工作并想要余量。
- 为何跳过这一档: 如果你需要 33B 或 70B 模型,没有任何 16 GB 显卡能装下它们——直接转向发烧档,而不是在这里过度花钱。
💡Tip: 在这一档中默认选 RTX 4080 Super——在几乎相同的全新价格下,它明显快于 RTX 4070 Ti Super。只有为省约 35 W 功耗,或想以折扣价买二手时,才选 4070 Ti Super。
发烧档($2,480 起):RTX 4090 和 RTX 5090
发烧档是唯一能运行 22B 以上模型的档次——而 RTX 5090 32 GB 是唯一能以 Q4 容纳 70B 模型的消费级单卡。 在这里购买是为显存容量,而非速度;速度是副产品。2026 年涨价对这一档冲击最大,价格逐周变动。
- RTX 4090 24 GB(全新 $2,755 / 二手 $2,480): 24 GB 显存,450 W,7B 模型约 150 tok/s,70B Q4 模型 36 tok/s。轻松运行 33B 模型。注意涨价已把二手 RTX 4090 价格推到接近全新 RTX 5090。
- RTX 5090 32 GB(全新 $3,949 / 二手 $3,999): 32 GB GDDR7 显存,575 W,7B 约 160 tok/s,70B Q4 为 45 tok/s。32 GB 容量是亮点——它是唯一无需第二张 GPU 就能以 Q4 运行 70B 模型的消费级显卡。由于黄牛炒作,目前二手价高于全新。
- 为何买这一档: 你需要 33B 或 70B 模型、你做批量推理,或你想要一款多年无需更换的显卡。
- 为何跳过这一档: 对 7B-14B 模型而言它过剩——高端档以不到一半的价格和功耗就能在这些规模上提供即时响应。
⚠️Warning: RTX 5090 单卡功耗 575 W。请搭配 850-1000 W 电源——750 W 的电源在负载下会掉压。把电源升级纳入购买预算,而非事后补救。
📌Note: 在 2026 年涨价之前,两张二手 RTX 4090 比一张 RTX 5090 便宜。如今情况反转:每张 $2,480-2,755,一对 RTX 4090 现在的总价远超一张 RTX 5090。对于新的 70B 构建,单张 RTX 5090 现在既更简单也更便宜。
你需要多少显存?
在 Q4_K_M 量化下,模型每十亿参数约需 0.6 GB 显存,外加 2-4 GB 用于上下文和工具开销。 这条公式直接对应四个档次。
- 7B 模型——8-9 GB: 适配任何档次。12 GB 显卡留有充裕余量。
- 13-14B 模型——11-13 GB: 计入上下文和工具后,实际需要 16 GB。中端档及以上。
- 22B 模型——14-16 GB: 在 16 GB 显卡上偏紧;高端档及以上较为宽裕。
- 33B 模型——19-22 GB: 需要 24 GB 显卡。RTX 4090 的领域。
- 70B 模型——Q4 下 39-42 GB: 需要把 RTX 5090 32 GB 用到极限,或采用双卡构建。单张 24 GB 显卡无法以 Q4 装下 70B 模型。
💡Tip: 上下文长度是隐藏的显存成本——长提示词和大上下文窗口会在模型权重之外额外占用显存。始终留出 2-4 GB 余量。完整方法见延伸阅读中链接的显存需求指南。
2026 年显卡为何涨价
2026 年显卡价格因内存短缺大幅上涨,把消费级显卡推高到原始建议零售价的 1.5 到 2 倍。 这改变了购买的算账方式,所以要围绕它而非发布价来规划。
📍 简单一句话
2026 年显卡价格因内存芯片短缺为建议零售价的 1.5 到 2 倍,因此本地大模型买家应优先考虑二手市场和能装下目标模型的最小显卡。
💬 简单来说
显卡本身并没有变好——是里面的内存变得稀缺且昂贵。在情况缓解之前,把建议零售价当作历史数字,能买二手就买二手,不要为超出模型实际所需的显存付费。
- 根源是内存,不是 GPU。 GDDR 和 HBM 供应短缺抬高了每一张配有高速内存的显卡的成本——而具备本地大模型能力的 GPU,正是受影响最大的高显存显卡。
- RTX 5090 是最清晰的例子: 发布价 $1,999,但到 2026 年 5 月零售价约 $3,949——几乎翻倍。
- 低端显卡撑得更好。 RTX 4060 Ti 16 GB 接近其 $399 建议零售价;涨幅与显卡搭载的高速内存数量成正比。
- 二手市场如今才是性价比之选。 二手 RTX 3060 12 GB 或 RX 6700 XT 躲过了大部分涨价——二手价的涨幅远小于全新价。
- 决策: 如果你能等,就关注短缺缓解的迹象;如果不能等,尽量买二手,并买能装下目标模型的最小显卡。
决策流程图:四个问题选定你的显卡
按顺序回答四个问题,能把大多数买家引向某一款显卡。
📍 简单一句话
为本地大模型选显卡时,先回答最大模型规模,其次预算上限,再选 NVIDIA 还是 AMD,最后看电源余量。
💬 简单来说
从你真正想运行的最大模型开始,让它来决定你的档次。只有在那之后,才看价格、品牌和电源能否带动显卡。按相反顺序来做,正是人们花冤枉钱或买到带不动自己模型的显卡的原因。
- 1. 你想运行的最大模型是什么? 7B:预算档。14B:中端档。22B:高端档。33B:RTX 4090。70B:RTX 5090 或双卡。
- 2. 你的硬性预算上限是多少? 约 $250 以下(二手):RTX 3060 12 GB。$520 以下:RTX 4060 Ti 16 GB。约 $1,100-1,200:RTX 4080 Super 或 4070 Ti Super。$2,480 起:RTX 4090 或 RTX 5090。
- 3. NVIDIA 还是 AMD? 除非你已拥有 AMD 硬件,或找到 RX 7800 XT 的大幅折扣,否则选 NVIDIA——CUDA 省去数小时的 ROCm 配置。
- 4. 你的电源有余量吗? 中端档以上的显卡需要 285-575 W;购买发烧档硬件前,先确认你的电源和机箱散热。
地区价格与购买渠道
显卡价格因地区而异——美国价格通常最低,欧盟价格含增值税,2026 年涨价已波及每个市场。 下方链接是按地区的普通商品搜索链接;它们不带联盟标签,也不产生佣金。
- 美国: Amazon 和 Newegg 货源最广。二手 RTX 3060 和 RTX 4090 显卡常见;全新旗舰货源稀少。
- 德国: Amazon.de 和 Mindfactory.de;标价通常含约 19% 增值税,德国显卡价格高于美国。
- 法国: Amazon.fr 和 LDLC;价格与德国相近,含 20% 增值税,旗舰货源时断时续。
- 日本: Amazon.co.jp 和 Kakaku.com 用于比价;全新显卡价格跟随美国,二手货源较少。
- 中国: 京东是参考市场;高端显卡的供货和价格与西方市场差异显著。
⚠️Warning: 由于 2026 年涨价,本指南中每个价格数字都是变动迅速的 2026 年 5 月快照。购买前请始终打开当前的零售商商品页——价格逐周变动。
为本地大模型买显卡时的常见错误
- 按每秒 token 而非显存购买。 装不下你模型的更快显卡毫无用处。先确认模型能在留有 2-4 GB 余量的情况下装入显存,再在该档次内比较速度。
- 买成 6 GB 版 RTX 3060 而非 12 GB 版本。 它们同名但用途不同——6 GB 显卡的上限是 3B 模型。务必在商品页确认 12 GB 版本。
- 以为 RTX 4060 Ti 16 GB 比 8 GB 版本更快。 并不是——它是同一颗 GPU 核心配更多内存。为容量(14B 模型)而买,不是为速度。
- 以建议零售价而非当前价格为锚。 2026 年涨价意味着发布价已不再反映现实。按零售商的实时价格做预算,并在二手市场躲过涨价的地方优先考虑它。
- 忽视电源需求。 RTX 5090 功耗 575 W,需要 850-1000 W 电源。一张在负载下掉压的显卡,比一张稳定运行的较慢显卡更糟。
- 选 AMD 却不为配置时间留预算。 RX 6700 XT 和 RX 7800 XT 性价比不错,但 ROCm 配置要花数小时。把这段时间与相对 NVIDIA 显卡省下的钱放在一起权衡。
- 为 7B 模型过度购买。 如果 7B 模型覆盖你的用途,RTX 4090 就是浪费钱和电。把档次匹配模型,而不是匹配你手头恰好有的预算。
来源
- NVIDIA GeForce RTX 40 系列规格 — RTX 4060 Ti、4070 Ti Super、4080 Super 和 4090 的官方显存容量与功耗(TGP)数据。
- NVIDIA GeForce RTX 5090 规格 — RTX 5090 的官方 32 GB GDDR7 显存与 575 W 功耗数据。
- Best Value GPU — RTX 5090 / 4090 / 4080 Super 价格追踪 — 用于 2026 年 5 月价格快照的美国全新与二手价格历史。
- AMD Radeon 规格 — RX 7800 XT 和 RX 6700 XT 的官方显存与功耗数据。
- 本地大模型最佳显卡 2026 — PromptQuorum 硬件测试:RTX 3060、4080、4090 和 5090 的实测 7B Q4 推理速度。
常见问题
能把本地大模型跑好的最便宜显卡是哪款?
二手 NVIDIA RTX 3060 12 GB($150-250)是能把本地大模型跑好的最便宜显卡。它的 12 GB 显存能以 Q4 量化装下每一款 7B 模型和大多数 13B 模型,达到 15-20 token 每秒。更便宜的 RX 6700 XT 也可以用,但更慢且需要 AMD ROCm 配置。买二手——全新价格在 2026 年涨价中大约翻了一番。
为什么 2026 年显卡价格这么高?
内存芯片短缺推动了 2026 年的显卡涨价。GDDR 和 HBM 供应收紧,抬高了每一张配有高速内存的显卡的成本,而具备本地大模型能力的高显存显卡受冲击最大。到 2026 年 5 月,大多数显卡售价为原始建议零售价的 1.5 到 2 倍——RTX 5090 发布价 $1,999,但零售价接近 $3,950。二手市场躲过了大部分涨幅。
本地大模型需要多少显存?
在 Q4_K_M 量化下,按每十亿参数约 0.6 GB 显存加 2-4 GB 开销来规划。这意味着 7B 模型 8-9 GB,14B 为 11-13 GB,33B 为 19-22 GB,70B 为 39-42 GB。12 GB 显卡能宽裕地覆盖 7B;70B 需要 RTX 5090 32 GB 或双卡构建。
RTX 4060 Ti 16 GB 比 8 GB 版本更快吗?
不。RTX 4060 Ti 16 GB 和 8 GB 版本使用同一颗 GPU 核心,因此每 token 推理速度相近——7B 模型约 20-25 token 每秒。16 GB 版本买的是容量,让你能运行 8 GB 装不下的 14B 模型。为显存而买,不是为速度。
本地大模型该买 NVIDIA 还是 AMD?
除非你已拥有 AMD 硬件或找到大幅折扣,否则买 NVIDIA。NVIDIA CUDA 与 Ollama、LM Studio 和 llama.cpp 开箱即用。RX 6700 XT 和 RX 7800 XT 等 AMD 显卡在每美元显存上有竞争力,但 ROCm 配置在 Linux 上通常要花数小时。
单张显卡能运行 70B 模型吗?
只有 RTX 5090 32 GB 可以,而且只在 Q4 量化下——此时 70B 模型约需 39-42 GB,意味着激进量化或部分卸载。24 GB 的 RTX 4090 无法单卡以 Q4 装下 70B 模型;常见方案是用两张 RTX 4090 合并显存,不过 2026 年的涨价已使这一对显卡比单张 RTX 5090 更贵。
对本地大模型而言,RTX 5090 相比 RTX 4090 值得吗?
只有在你确实需要单卡运行 70B 模型时才值得。RTX 5090 有 32 GB 显存,对比 RTX 4090 的 24 GB,这是决定性因素。对 7B-33B 模型,RTX 4090 装下的模型相同;2026 年涨价后两者价格接近,因此如果预算允许,5090 多出的 8 GB 和略高的速度使它成为更好的全新购买选择。
这些显卡需要什么电源?
把电源与档次匹配:550 W 适合 RTX 3060,650-750 W 适合 RTX 4060 Ti 和 4070 Ti Super,850 W 适合 RTX 4090,而单卡功耗 575 W 的 RTX 5090 需要 850-1000 W。容量不足的电源会在负载下导致不稳定。