Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/修复本地 LLM 错误 2026:Ollama、LM Studio 和 vLLM 的 10 个常见问题
入门指南

修复本地 LLM 错误 2026:Ollama、LM Studio 和 vLLM 的 10 个常见问题

·阅读约9分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

本地 LLM 最常见的错误包括内存不足崩溃、GPU 无法检测、CPU 推理速度极慢、API 连接被拒绝和输出乱码。

本地 LLM 最常见的错误包括内存不足崩溃、GPU 无法检测、CPU 推理速度极慢、API 连接被拒绝和输出乱码。截至 2026 年 4 月,所有 10 个错误都有解决方案——大多数只需要一两个终端命令。本指南涵盖 Ollama(端口 11434)、LM Studio(端口 1234)和 vLLM,包含每个错误的确切命令。

演示文稿: 修复本地 LLM 错误 2026:Ollama、LM Studio 和 vLLM 的 10 个常见问题

以下的演示文稿涵盖:本地 LLM 设置中最常见的 10 个错误(内存不足、GPU 未检测到、推理缓慢、连接被拒绝、输出乱码),Q4_K_M 和 Q8_0 量化下 3B–14B 模型的内存要求,5 步调试流程以及每个修复的 Ollama 命令。下载 PDF 作为本地 LLM 故障排除参考卡。

浏览以下幻灯片或下载PDF以供离线参考。 下载参考卡(PDF)

关键要点

  • 内存不足:切换到较小的量化(Q4_K_M → Q3_K_S)或较小的模型。
  • NVIDIA 上 GPU 无法检测:在 Linux 上将驱动程序更新到 525+,在 Windows 上更新到 452+。运行 `nvidia-smi` 确认。
  • 推理速度极慢:您仅在 CPU 上运行。使用 `OLLAMA_GPU_LAYERS` 环境变量在 Ollama 中启用 GPU 卸载。
  • 连接被拒绝:Ollama 未运行。使用 `ollama serve` 启动它或重启服务。
  • 输出乱码:提示模板错误。使用模型的 instruct 变体,而不是基础变体。
10 个最常见的本地 LLM 错误及症状和修复——Ollama、LM Studio 和 vLLM 设置的快速参考(2026 年 4 月)。
10 个最常见的本地 LLM 错误及症状和修复——Ollama、LM Studio 和 vLLM 设置的快速参考(2026 年 4 月)。

错误 1:"内存不足" / 内存不足崩溃

内存不足错误意味着模型需要的 RAM 超过可用 RAM——不是硬件故障。 这是首次使用者最常见的错误。请参阅 LLM 量化解释 了解量化如何减少 RAM 需求的背景。

  • 检查可用 RAM:在 macOS/Linux 上运行 `free -h`,在 Windows 上打开任务管理器→性能→内存。
  • 切换到更小的量化:将 `Q8_0` 或 `Q5_K_M` 替换为 `Q4_K_M`。对于 Ollama:`ollama run llama3.2-instruct-q4_K_M`。
  • 加载模型前关闭后台应用——浏览器和其他应用消耗 RAM,减少了模型可用的内存。
  • 切换到较小的模型:如果 8B 在 8 GB RAM 上失败,尝试 `llama3.2:3b`(仅需约 2.5 GB)。
按模型大小的本地 LLM RAM 需求:llama3.2 1B–3B 适合 8 GB,7B–8B 模型需要 16 GB,70B 模型在 Q4_K_M 量化下需要 64 GB。
按模型大小的本地 LLM RAM 需求:llama3.2 1B–3B 适合 8 GB,7B–8B 模型需要 16 GB,70B 模型在 Q4_K_M 量化下需要 64 GB。

在 Linux / macOS 上检查可用 RAM

bash
# Linux
free -h

# macOS
vm_stat | grep "Pages free"

# macOS 上更易读
top -l 1 | grep "PhysMem"

错误 2:GPU 未被使用(仅在 CPU 上运行)

GPU 未被使用意味着 LLM 运行速度比预期慢 5–10 倍——在其他任何事情之前检查驱动程序安装。 验证您的 GPU 对系统可见:

bash
# NVIDIA——应该显示 GPU 名称和驱动程序版本
nvidia-smi

# Linux 上的 AMD
rocm-smi

# macOS——检查 Metal 是否可用
system_profiler SPDisplaysDataType | grep "Metal"
仅 CPU 与 GPU 活动:Ollama 在 CPU 上给出 2–8 tok/s;GPU 模式给出 30–120 tok/s。使用 ollama ps 或 nvidia-smi 检查。
仅 CPU 与 GPU 活动:Ollama 在 CPU 上给出 2–8 tok/s;GPU 模式给出 30–120 tok/s。使用 ollama ps 或 nvidia-smi 检查。

如何在 Ollama 中启用 GPU?

  • Linux 上的 NVIDIA:安装 NVIDIA 驱动程序 525+ 和 CUDA 工具包 11.3+。Ollama 会在重启时自动检测 CUDA。
  • Windows 上的 NVIDIA:确保驱动程序版本为 452.39 或更高。Ollama 通过 Windows 安装程序自动安装 CUDA 支持。
  • Linux 上的 AMD:安装 ROCm 5.7+。如果检测失败,为 RX 6000 系列卡设置 `HSA_OVERRIDE_GFX_VERSION=11.0.0`。
  • Apple Silicon:Ollama 默认使用 Metal——无需配置。在启动模型后使用 `ollama ps` 确认;GPU 层出现在输出中。

错误 3:推理速度极慢(低于 5 Token/秒)

低于 5 token/秒意味着模型仅在 CPU 上运行或模型对可用 VRAM 来说过大。 7B 模型在 GPU 上生成 30–80 tok/s;同一模型在 CPU 上生成 3–10 tok/s。

  • 确认 GPU 是否活动:在加载模型时运行 `ollama ps`。输出显示有多少层在 GPU 上,有多少在 CPU 上。
  • 减小模型大小:CPU 上的 13B 模型生成 3–6 tok/s。切换到 7B 会使速度翻倍;切换到 3B 会使速度翻四倍。
  • 增加 Ollama 中的 GPU 层:设置 `OLLAMA_GPU_LAYERS=999` 以将所有层推送到 GPU(Ollama 会限制为 VRAM 中适合的)。
  • 使用更快的量化:Q4_K_M 是保持可接受质量的最快量化。Q8_0 质量更高,但速度慢约 30%。

在 Ollama 中设置 GPU 层

bash
# 在启动 Ollama 之前设置环境变量
export OLLAMA_GPU_LAYERS=999
ollama serve

# 或在 Modelfile 中
FROM llama3.1:8b
PARAMETER num_gpu 999

错误 4:调用 API 时"连接被拒绝"

连接被拒绝意味着 Ollama 未运行——`localhost:11434` 处的 API 仅在服务活动时响应。 在进行 API 调用之前启动它。

bash
# 手动启动 Ollama
ollama serve

# 在 Linux 上——重启 systemd 服务
systemctl restart ollama

# 验证它正在运行
curl http://localhost:11434
# 预期:"Ollama is running"

错误 5:"找不到模型"错误

"找不到模型"意味着您命令中的模型名称与任何已下载的模型不匹配。 Ollama 中的模型名称区分大小写,并包括版本标签。

bash
# 列出所有已下载的模型
ollama list

# 如果缺少模型则拉取
ollama pull llama3.2

# 检查确切的模型名称——标签重要
# "llama3.2" 和 "llama3.2:3b" 是不同的条目

错误 6:模型文件损坏

损坏的模型文件是由下载中断导致的——删除并重新拉取以修复。 Ollama 不总是自动检测部分下载。

bash
# 移除损坏的模型
ollama rm llama3.2

# 重新拉取
ollama pull llama3.2

# 对于 LM Studio:手动删除模型文件
# 默认位置:~/.cache/lm-studio/models/

错误 6b:LM Studio 中的"无法解析模型"

"无法解析模型 lmstudio-community/..." 意味着 LM Studio 在其注册表中找不到该模型。 这通常发生在从 Hugging Face 上的 `lmstudio-community` 下载模型但注册表引用已更改时。LM Studio 使用的是不再与可用模型文件匹配的缓存注册表条目。

  • 打开 LM Studio→My Models 选项卡→单击失败模型上的三点菜单→选择"Delete model"(保留文件,删除注册表)
  • 在模型浏览器中搜索相同模型并重新下载——LM Studio 会重新注册它
  • 替代方案:退出 LM Studio,导航到 `~/.cache/lm-studio/models/`,删除特定的模型文件夹,然后重新下载
bash
# 手动清除 LM Studio 模型缓存(macOS/Linux)
rm -rf ~/.cache/lm-studio/models/lmstudio-community/<model-name>

错误 7:CUDA / ROCm 初始化错误

CUDA 和 ROCm 错误意味着驱动程序/库版本不匹配——将驱动程序更新到所需的最低版本。

  • "CUDA 驱动程序版本不足":更新 NVIDIA 驱动程序。llama.cpp 的最低版本是 CUDA 11.3 / 驱动程序 450.80。
  • "没有可用于执行的内核映像":您的 GPU 架构不受支持。GTX 900 系列(Maxwell)及更旧的不受最近 CUDA 构建支持。
  • AMD ROCm"HSA_STATUS_ERROR_INVALID_ISA":在启动 Ollama 之前设置 `HSA_OVERRIDE_GFX_VERSION=10.3.0`(对于 RX 6000)或 `11.0.0`(对于 RX 7000)。
  • 检查 CUDA 版本:运行 `nvcc --version` 或 `nvidia-smi | grep CUDA`。

错误 8:输出乱码、重复或无意义

输出乱码几乎总是意味着您使用的是基础模型而不是 instruct/chat 变体。 基础模型生成原始文本补全,而不是对问题的答案。

基础模型(例如 `llama3.1:8b`)不是针对对话微调的,当用问题提示时会生成看起来像乱码的原始补全。始终使用 instruct 变体:`llama3.1:8b-instruct`。请参阅 如何安装 LM Studio 了解基于 GUI 的方法来切换模型变体。

在 Ollama 中,大多数模型的默认标签已经指向 instruct 变体。如果您从 Hugging Face 手动下载,确认文件名包括"Instruct"或"chat"。

错误 9:"地址已在使用"——端口冲突

"地址已在使用"意味着另一个进程占用了端口 11434(Ollama)或 1234(LM Studio)。 查找并杀死冲突的进程。

bash
# 查找什么在使用端口 11434(Ollama)
lsof -i :11434

# 按 PID 杀死它
kill -9 <PID>

# 或更改 Ollama 的端口
export OLLAMA_HOST=0.0.0.0:11435
ollama serve

错误 10:模型在响应中途停止生成

中途停止是由达到上下文长度限制或 `num_predict` 设置过低引起的。 许多配置中的默认 `num_predict` 是 128 个 token——仅够 1–2 句话。

  • 增加 num_predict:此参数设置要生成的最大 token 数。默认值通常是 128。增加它:在 Ollama 中,将 `PARAMETER num_predict 2048` 添加到 Modelfile。
  • 检查上下文窗口:如果您的对话很长,模型可能达到了其上下文限制。开始新会话或使用具有更大上下文窗口的模型(Llama 3.2 3B 支持 128K)。
  • 检查停止 token:某些 Modelfile 包括提前终止生成的停止序列。查看系统提示和模板以查找意外的停止模式。

按地区划分的本地 LLM 故障排除

中国(数据安全法):根据中国 2021 年《数据安全法》部署时,使用 Ollama 和 Qwen3 7B 满足数据本地化要求。个人数据和敏感数据需要本地部署。GPU 驱动程序安装遵循与 Linux 相同的流程。对于中国制造的 GPU 卡(Biren BR100),ROCm 支持需要自定义 ROCm 构建。在阿里云、腾讯云或华为云上部署时,选择中国地区的实例以确保数据驻留合规性。

亚太地区(数据跨境):数据跨境限制通常要求在当地数据中心运行推理。Ollama 和 LM Studio 在本地服务器上运行时避免了跨境数据传输。对于医疗、金融或法律数据,请咨询当地合规专家。

企业部署:大型企业(银行、医院、律师事务所)处理受管制数据应使用经过审计的本地 LLM 部署。Ollama 不保存日志的事实减少了监管负担。使用强身份验证和磁盘上的模型加密。对于生产环境,在联想 ThinkPad 或华为 MateBook 上运行 13B 模型需要 32 GB RAM 和配置的 CUDA 驱动程序。

相关阅读

在哪里寻找更多帮助

对于笔记本电脑上的硬件特定问题(热节流、电池耗尽),请参阅 如何在笔记本电脑上运行本地 LLM。对于安全和隐私配置问题,请参阅 本地 LLM 安全和隐私检查清单。Ollama GitHub 问题页面(github.com/ollama/ollama/issues)和 r/LocalLLaMA subreddit 是特定于模型的错误的最活跃社区资源。

本地 LLM 故障排除中的常见错误

  • 将 OOM 错误与硬件故障混淆——错误意味着 RAM 对模型来说太小,而不是硬件已损坏。修复:使用 Q4_K_M 量化或较小的模型。
  • 不检查系统负载——当其他应用使用 CPU/GPU 时,推理速度会显著下降。在基准测试前关闭浏览器、视频播放器和后台进程。
  • 忽视驱动程序版本不兼容——NVIDIA CUDA 需要特定的驱动程序版本(每个 CUDA 版本)。检查 `nvidia-smi` 输出;CUDA 11.x 的驱动程序版本必须 ≥450.80。
  • 在 Ollama 中使用错误的模型名称——`llama3.2` 和 `llama3.2:3b` 是不同的 Ollama 标签。运行 `ollama list` 查看已下载模型的确切名称。
  • 驱动程序更新后不重启 Ollama——Ollama 在启动时检测 GPU。更新 NVIDIA 或 ROCm 驱动程序后,完全重启 Ollama(`ollama serve`)以重新检测 GPU。
5 步本地 LLM 调试过程:检查 RAM→检查 GPU→检查服务器→检查模型→检查输出质量。在第一个失败步骤处停止。
5 步本地 LLM 调试过程:检查 RAM→检查 GPU→检查服务器→检查模型→检查输出质量。在第一个失败步骤处停止。

来源

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM