关键要点
- 从 lmstudio.ai 下载 LM Studio - 可在 macOS(Apple Silicon + Intel)、Windows 和 Linux(AppImage)上使用。
- 最低要求:8GB RAM。推荐:7B 模型使用 16GB RAM。Apple Silicon Mac 默认使用 GPU 加速。
- 内置模型浏览器直接搜索 Hugging Face - 不离开应用下载 GGUF 模型。
- LM Studio 包括内置聊天 UI 和端口 1234 上的 OpenAI 兼容本地服务器。
- 最适合:喜欢 GUI 的初学者、想并排比较多个模型的用户、需要完整包而不使用终端命令的所有人。
LM Studio 是什么?
LM Studio 是运行本地 LLM 的桌面应用程序。 它提供图形模型浏览器、内置聊天界面和本地 API 服务器 - 全部在一个应用中。在内部,它使用 llama.cpp 进行推理,这是与 Ollama(Ollama)相同的引擎。
LM Studio 与 Ollama 的主要区别是它完全由 GUI 驱动。您通过应用界面浏览和下载模型、通过一次单击启动聊天,并使用滑块而不是配置文件管理模型设置。
LM Studio 可供个人使用免费。由 LM Studio,Inc. 开发,2023 年发布。截至 2026 年,它支持 NVIDIA CUDA、AMD ROCm 和 Apple Metal 加速。
LM Studio 的系统要求是什么?
| 规格 | 最低要求 | 推荐 |
|---|---|---|
| 操作系统 | macOS 13.6、Windows 10、Ubuntu 22.04 | macOS 14+、Windows 11、Ubuntu 24.04 |
| RAM | 8GB | 16GB 或更高 |
| 存储 | App 500 MB + 模型空间 | 50GB+ 多个模型的空闲空间 |
| GPU(可选) | NVIDIA GTX 10 系列或更新版本 | NVIDIA RTX 40/50 系列、AMD RX 7000+ 或 Apple M-series |
如何下载和安装 LM Studio
- 1访问 lmstudio.ai 并单击您的操作系统的下载按钮。
- 2macOS:打开 .dmg 文件并将 LM Studio 拖到应用程序。首次启动时,在系统偏好设置 → 隐私和安全中批准安全提示。
- 3Windows:运行 LM-Studio-Setup.exe 安装程序。LM Studio 安装在 %LOCALAPPDATA%\LM-Studio。
- 4Linux:下载 .AppImage 文件。用 `chmod +x LM-Studio-*.AppImage` 使其可执行并运行。不需要系统安装。
- 5首次启动时,LM Studio 会显示欢迎屏幕并提示您下载模型。
如何在 LM Studio 中查找和下载模型
使用搜索选项卡(左侧边栏中的放大镜图标)查找模型:
- 1单击左侧边栏中的搜索选项卡。
- 2键入模型名称 - 例如"llama 3.1"或"phi-3 mini"。
- 3LM Studio 显示来自 Hugging Face 的匹配 GGUF 模型,带有文件大小和量化选项。
- 4选择量化级别。对于 8GB RAM:选择 Q4_K_M(7B 模型约 4.5GB)。对于 16GB RAM:Q5_K_M 或 Q6_K 提供更好的质量。
- 5单击下载箭头。进度显示在下载选项卡中。
如何在 LM Studio 中开始与模型聊天
- 1单击左侧边栏中的聊天选项卡(语音气泡图标)。
- 2在聊天窗口顶部,单击模型选择器下拉菜单并选择您下载的模型。
- 3LM Studio 将模型加载到内存 - 这根据模型大小和硬件需要 5-30 秒。
- 4在底部的输入字段中输入您的消息,然后按 Enter 或单击发送。
- 5模型的响应逐个令牌流式传输。生成速度出现在窗口底部的状态栏中。
如何在 LM Studio 中调整模型设置
聊天选项卡中的右窗格公开关键推理参数:
- 温度(默认 0.8):控制响应随机性。较低的值(0.1-0.4)产生更集中、可预测的输出。较高的值(0.8-1.2)产生更多样化、创意的输出。
- 上下文长度(默认 4096 令牌):模型可以处理的最大对话历史。更长的上下文使用更多 RAM。大多数 7B 模型支持 4096-8192 令牌。
- GPU 层(macOS/Linux/Windows with GPU):有多少模型层卸载到 GPU。如果您的 GPU 有足够的 VRAM,设置为最大以实现最快推理。
- 系统提示:在每次对话前添加的持久指令。使用此设置模型的角色或行为。
如何启用 LM Studio 本地服务器
LM Studio 包括一个模仿 OpenAI API 的本地服务器。任何适用于 OpenAI 的应用都可以通过此服务器使用您的本地模型:
- 1单击左侧边栏中的本地服务器选项卡("<->"图标)。
- 2在顶部的模型下拉菜单中选择一个模型。
- 3单击"启动服务器"。服务器在 http://localhost:1234 上启动。
- 4您的应用应设置 `base_url = "http://localhost:1234/v1"` 和任何字符串作为 API 密钥(服务器接受任何值)。
如何通过 Python 连接到 LM Studio
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="not-needed"
)
response = client.chat.completions.create(
model="local-model",
messages=[{"role": "user", "content": "What is a local LLM?"}]
)
print(response.choices[0].message.content)应该使用 LM Studio 还是 Ollama
| 因素 | LM Studio | Ollama |
|---|---|---|
| 界面 | 图形桌面应用 | 终端 + API |
| 模型源 | Hugging Face(任何 GGUF 模型) | Ollama 库(策划,约 200 个模型) |
| API 端口 | localhost:1234 | localhost:11434 |
| 模型管理 | 带文件大小信息的 GUI 浏览器 | CLI 命令(ollama pull、list、rm) |
| 自动化 | 有限(GUI 为中心) | 强大(脚本、Docker、CI) |
| 最适合 | 初学者、GUI 用户、模型探索 | 开发人员、自动化、服务器部署 |
如何排查 LM Studio 常见问题
LM Studio 显示"没有足够的内存来加载模型"
模型需要比可用更多的 RAM。关闭其他应用以释放内存,或选择更小的量化(Q3_K_S 而不是 Q4_K_M)。一般规则:将模型文件大小乘以 1.2 以估计所需的 RAM。4.5GB 文件需要约 5.4GB 可用 RAM。
模型生成非常缓慢(每秒 5 个令牌以下)
模型完全在 CPU 上运行。检查右窗格中的 GPU 层 - 如果显示 0,您的 GPU 未被使用。在 macOS 上,LM Studio 自动为 Apple Silicon 启用 Metal(GPU)。在 Windows/Linux with NVIDIA 上,确保您的驱动程序是最新的,并将 GPU 层增加到显示的最大值。
我在 LM Studio 搜索中找不到特定模型
LM Studio 搜索 Hugging Face 以查找 GGUF 文件。如果模型没有出现,请尝试直接按 Hugging Face 存储库名称搜索(例如"bartowski/Llama-3.1-8B-Instruct-GGUF")。某些较新的模型可能尚未建立索引。
本地服务器返回"找不到模型"错误
必须在本地服务器选项卡中加载模型,服务器才能响应。打开本地服务器选项卡,从下拉菜单中选择一个模型,然后单击启动服务器。API 请求中的模型名称可以是任何字符串 - LM Studio 使用当前加载的模型。
对隐私敏感的用例 LM Studio
中国(数据安全法):LM Studio 支持通过 Hugging Face 搜索原生 Qwen2.5 模型 - 在模型浏览器中搜索"qwen2.5"以查找所有可用大小。对于中文文本工作流,Qwen2.5 7B 或 14B 比同参数数量的西方训练模型在中文文本上提供 30-40% 更好的令牌效率。所有推理在本地运行,根据中国数据安全法(数据安全法),无外部 API 调用。
亚太地区(数据跨境):LM Studio 在本地运行所有推理,符合 MLAI(多边人工智能)框架和地区数据驻留要求。对于在亚太地区处理敏感数据的企业,LM Studio 消除了数据跨越国界的风险。
企业部署:LM Studio 提供零出口推理,适合金融、医疗和法律行业的监管合规。所有数据留在本地设备上,简化了审计和数据保护认证。
安装 LM Studio 时常见的错误是什么
- 未为所选模型分配足够的系统 RAM。 检查模型文件大小并乘以 1.2 - 这是所需的最小可用 RAM。4.5GB Q4_K_M 7B 模型需要约 5.4GB 可用 RAM。
- 使用预量化模型仍然对您的 GPU VRAM 来说太大。 如果模型超过 VRAM,LM Studio 会回退到 CPU 推理,速度快 5-10 倍。在下载前检查文件大小与您的 GPU VRAM。
- 期望来自 CPU 专用系统上大型模型的即时响应。 7B 模型在 CPU 上生成 8-20 令牌/秒 - 200 令牌响应需要 10-25 秒。这是正常的。对于仅 CPU 机器上的更快响应,使用 3B 模型。
- 在 NVIDIA 机器上设置 GPU 层为 0: LM Studio 应自动检测 CUDA,但在新安装后有时默认为 0 GPU 层。打开模型面板 → GPU 层 → 拖到最大。在 RTX 4070(12GB VRAM)上,7B 模型的最大层从 8 tok/sec(CPU)移动到 80+ tok/sec(GPU)- 10 倍差异。
- 当 Q4_K_M 可用时下载 FP16 模型。 FP16 模型对于聊天任务比 Q4_K_M 大两倍,质量收益可忽略不计。7B 模型的 FP16 约为 14GB;同一模型在 Q4_K_M 约为 4.5GB。除非您有特定理由使用更高精度,否则始终默认下载 Q4_K_M。
延伸阅读
- 什么是本地 LLM? -- 核心概念和组件
- 运行您的第一个本地 LLM -- 安装后的后续步骤
- 如何安装 Ollama -- LM Studio 的基于终端的替代方案
- 初学者最佳本地 LLM 模型 -- 按硬件的模型建议
- 本地 LLM 硬件指南 2026 -- GPU 和 RAM 建议以从您的硬件获得 LM Studio 的最佳性能
- 本地 LLM vs 云 API -- 成本和速度比较以决定何时本地 LM Studio 推理是正确的选择
- 2026年最佳编程本地LLM对比 — Qwen2.5-Coder与DeepSeek基准测试
FAQ
LM Studio 显示"没有足够的内存来加载模型"
模型需要比可用更多的 RAM。关闭其他应用以释放内存,或选择更小的量化。一般规则:将模型文件大小乘以 1.2 以估计所需的 RAM。
模型生成非常缓慢(每秒 5 个令牌以下)
模型完全在 CPU 上运行。检查右窗格中的 GPU 层 - 如果显示 0,您的 GPU 未被使用。在 macOS 上,LM Studio 自动为 Apple Silicon 启用 Metal。
我在 LM Studio 搜索中找不到特定模型
LM Studio 搜索 Hugging Face 以查找 GGUF 文件。如果模型没有出现,请尝试直接按 Hugging Face 存储库名称搜索。某些较新的模型可能尚未建立索引。
本地服务器返回"找不到模型"错误
必须在本地服务器选项卡中加载模型,服务器才能响应。打开本地服务器选项卡,从下拉菜单中选择一个模型,然后单击启动服务器。
LM Studio 免费吗?
是的。LM Studio 可供个人使用免费,没有功能限制。商业用途需要商业许可。截至 2026 年 4 月,个人级别没有使用上限、模型限制或水印。
LM Studio 和 Ollama 之间有什么区别?
LM Studio 是图形桌面应用 - 您通过可视界面浏览和下载模型、通过一次单击启动聊天、用滑块调整设置。Ollama 是命令行工具和后台服务 - 用单个命令设置更快。
LM Studio 可以使用哪些模型?
来自 Hugging Face 的任何 GGUF 格式模型。热门选择包括 Llama 3.1 8B、Qwen2.5 7B、Mistral 7B、Phi-4 Mini 和 Gemma 3 9B。在 Discover 选项卡中按模型名称搜索。
LM Studio 自动使用我的 GPU 吗?
在 Apple Silicon 上是的 - Metal 加速默认启用。在 Windows and Linux with NVIDIA 上,如果驱动程序已安装,LM Studio 会自动检测 CUDA。
LM Studio 在哪里存储下载的模型?
macOS:~/Library/Application Support/LM Studio/Models/lmstudio-community/。Windows:%USERPROFILE%.cachelm-studiomodels。Linux:~/.cache/lm-studio/models/。
我可以在 VS Code 或 Cursor 中使用 LM Studio 吗?
可以。在 localhost:1234 启动 LM Studio 本地服务器,然后配置您的 IDE 扩展以使用 http://localhost:1234/v1 作为 API 基本 URL。
资源
- LM Studio. (2026). "LM Studio 文档和发行说明。" lmstudio.ai. https://lmstudio.ai/docs -- 官方安装指南、API 文档和硬件兼容性信息。
- Hugging Face. (2026). "GGUF 模型中心。" https://huggingface.co/models?library=gguf -- 与 LM Studio 模型浏览器兼容的 GGUF 量化模型的完整目录。
- llama.cpp 贡献者。(2026). "llama.cpp -- CPU/GPU 推理引擎。" https://github.com/ggerganov/llama.cpp -- LM Studio 使用的推理后端,带有硬件兼容性和性能数据。