LM Studio 是一个免费的桌面应用程序，可以不需要终端命令就运行本地 LLM。从 lmstudio.ai 下载安装程序，打开应用，按名称搜索模型，单击下载，然后开始聊天 - 整个过程在 5 分钟内完成。截至 2026 年 4 月，LM Studio 在 macOS（Apple Silicon 和 Intel）、Windows 10+ 和 Linux（AppImage）上运行，支持 Hugging Face 500,000 多个模型库中的任何 GGUF 量化模型。它包括内置聊天 UI、localhost:1234 上的 OpenAI 兼容本地服务器，以及 Apple Metal、NVIDIA CUDA 和 AMD ROCm 的自动 GPU 加速。

关键要点

从 lmstudio.ai 下载 LM Studio - 可在 macOS（Apple Silicon + Intel）、Windows 和 Linux（AppImage）上使用。
最低要求：8GB RAM。推荐：7B 模型使用 16GB RAM。Apple Silicon Mac 默认使用 GPU 加速。
内置模型浏览器直接搜索 Hugging Face - 不离开应用下载 GGUF 模型。
LM Studio 包括内置聊天 UI 和端口 1234 上的 OpenAI 兼容本地服务器。
最适合：喜欢 GUI 的初学者、想并排比较多个模型的用户、需要完整包而不使用终端命令的所有人。

LM Studio 是什么？

LM Studio 是运行本地 LLM 的桌面应用程序。 它提供图形模型浏览器、内置聊天界面和本地 API 服务器 - 全部在一个应用中。在内部，它使用 llama.cpp 进行推理，这是与 Ollama（Ollama）相同的引擎。

LM Studio 与 Ollama 的主要区别是它完全由 GUI 驱动。您通过应用界面浏览和下载模型、通过一次单击启动聊天，并使用滑块而不是配置文件管理模型设置。

LM Studio 可供个人使用免费。由 LM Studio，Inc. 开发，2023 年发布。截至 2026 年，它支持 NVIDIA CUDA、AMD ROCm 和 Apple Metal 加速。

LM Studio 的系统要求是什么？

规格	最低要求	推荐
操作系统	macOS 13.6、Windows 10、Ubuntu 22.04	macOS 14+、Windows 11、Ubuntu 24.04
RAM	8GB	16GB 或更高
存储	App 500 MB + 模型空间	50GB+ 多个模型的空闲空间
GPU（可选）	NVIDIA GTX 10 系列或更新版本	NVIDIA RTX 40/50 系列、AMD RX 7000+ 或 Apple M-series

如何下载和安装 LM Studio

1
访问 lmstudio.ai 并单击您的操作系统的下载按钮。
2
macOS：打开 .dmg 文件并将 LM Studio 拖到应用程序。首次启动时，在系统偏好设置 → 隐私和安全中批准安全提示。
3
Windows：运行 LM-Studio-Setup.exe 安装程序。LM Studio 安装在 %LOCALAPPDATA%\LM-Studio。
4
Linux：下载 .AppImage 文件。用 `chmod +x LM-Studio-*.AppImage` 使其可执行并运行。不需要系统安装。
5
首次启动时，LM Studio 会显示欢迎屏幕并提示您下载模型。

如何在 LM Studio 中查找和下载模型

使用搜索选项卡（左侧边栏中的放大镜图标）查找模型：

1
单击左侧边栏中的搜索选项卡。
2
键入模型名称 - 例如"llama 3.1"或"phi-3 mini"。
3
LM Studio 显示来自 Hugging Face 的匹配 GGUF 模型，带有文件大小和量化选项。
4
选择量化级别。对于 8GB RAM：选择 Q4_K_M（7B 模型约 4.5GB）。对于 16GB RAM：Q5_K_M 或 Q6_K 提供更好的质量。
5
单击下载箭头。进度显示在下载选项卡中。

如何在 LM Studio 中开始与模型聊天

1
单击左侧边栏中的聊天选项卡（语音气泡图标）。
2
在聊天窗口顶部，单击模型选择器下拉菜单并选择您下载的模型。
3
LM Studio 将模型加载到内存 - 这根据模型大小和硬件需要 5-30 秒。
4
在底部的输入字段中输入您的消息，然后按 Enter 或单击发送。
5
模型的响应逐个令牌流式传输。生成速度出现在窗口底部的状态栏中。

如何在 LM Studio 中调整模型设置

聊天选项卡中的右窗格公开关键推理参数：

温度（默认 0.8）：控制响应随机性。较低的值（0.1-0.4）产生更集中、可预测的输出。较高的值（0.8-1.2）产生更多样化、创意的输出。
上下文长度（默认 4096 令牌）：模型可以处理的最大对话历史。更长的上下文使用更多 RAM。大多数 7B 模型支持 4096-8192 令牌。
GPU 层（macOS/Linux/Windows with GPU）：有多少模型层卸载到 GPU。如果您的 GPU 有足够的 VRAM，设置为最大以实现最快推理。
系统提示：在每次对话前添加的持久指令。使用此设置模型的角色或行为。

如何启用 LM Studio 本地服务器

LM Studio 包括一个模仿 OpenAI API 的本地服务器。任何适用于 OpenAI 的应用都可以通过此服务器使用您的本地模型：

1
单击左侧边栏中的本地服务器选项卡（"<->"图标）。
2
在顶部的模型下拉菜单中选择一个模型。
3
单击"启动服务器"。服务器在 http://localhost:1234 上启动。
4
您的应用应设置 `base_url = "http://localhost:1234/v1"` 和任何字符串作为 API 密钥（服务器接受任何值）。

如何通过 Python 连接到 LM Studio

python

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="local-model",
    messages=[{"role": "user", "content": "What is a local LLM?"}]
)
print(response.choices[0].message.content)

应该使用 LM Studio 还是 Ollama

因素	LM Studio	Ollama
界面	图形桌面应用	终端 + API
模型源	Hugging Face（任何 GGUF 模型）	Ollama 库（策划，约 200 个模型）
API 端口	localhost:1234	localhost:11434
模型管理	带文件大小信息的 GUI 浏览器	CLI 命令（ollama pull、list、rm）
自动化	有限（GUI 为中心）	强大（脚本、Docker、CI）
最适合	初学者、GUI 用户、模型探索	开发人员、自动化、服务器部署

如何排查 LM Studio 常见问题

LM Studio 显示"没有足够的内存来加载模型"

模型需要比可用更多的 RAM。关闭其他应用以释放内存，或选择更小的量化（Q3_K_S 而不是 Q4_K_M）。一般规则：将模型文件大小乘以 1.2 以估计所需的 RAM。4.5GB 文件需要约 5.4GB 可用 RAM。

模型生成非常缓慢（每秒 5 个令牌以下）

模型完全在 CPU 上运行。检查右窗格中的 GPU 层 - 如果显示 0，您的 GPU 未被使用。在 macOS 上，LM Studio 自动为 Apple Silicon 启用 Metal（GPU）。在 Windows/Linux with NVIDIA 上，确保您的驱动程序是最新的，并将 GPU 层增加到显示的最大值。

我在 LM Studio 搜索中找不到特定模型

LM Studio 搜索 Hugging Face 以查找 GGUF 文件。如果模型没有出现，请尝试直接按 Hugging Face 存储库名称搜索（例如"bartowski/Llama-3.1-8B-Instruct-GGUF"）。某些较新的模型可能尚未建立索引。

本地服务器返回"找不到模型"错误

必须在本地服务器选项卡中加载模型，服务器才能响应。打开本地服务器选项卡，从下拉菜单中选择一个模型，然后单击启动服务器。API 请求中的模型名称可以是任何字符串 - LM Studio 使用当前加载的模型。

对隐私敏感的用例 LM Studio

中国（数据安全法）：LM Studio 支持通过 Hugging Face 搜索原生 Qwen2.5 模型 - 在模型浏览器中搜索"qwen2.5"以查找所有可用大小。对于中文文本工作流，Qwen2.5 7B 或 14B 比同参数数量的西方训练模型在中文文本上提供 30-40% 更好的令牌效率。所有推理在本地运行，根据中国数据安全法（数据安全法），无外部 API 调用。

亚太地区（数据跨境）：LM Studio 在本地运行所有推理，符合 MLAI（多边人工智能）框架和地区数据驻留要求。对于在亚太地区处理敏感数据的企业，LM Studio 消除了数据跨越国界的风险。

企业部署：LM Studio 提供零出口推理，适合金融、医疗和法律行业的监管合规。所有数据留在本地设备上，简化了审计和数据保护认证。

安装 LM Studio 时常见的错误是什么

未为所选模型分配足够的系统 RAM。 检查模型文件大小并乘以 1.2 - 这是所需的最小可用 RAM。4.5GB Q4_K_M 7B 模型需要约 5.4GB 可用 RAM。
使用预量化模型仍然对您的 GPU VRAM 来说太大。 如果模型超过 VRAM，LM Studio 会回退到 CPU 推理，速度快 5-10 倍。在下载前检查文件大小与您的 GPU VRAM。
期望来自 CPU 专用系统上大型模型的即时响应。 7B 模型在 CPU 上生成 8-20 令牌/秒 - 200 令牌响应需要 10-25 秒。这是正常的。对于仅 CPU 机器上的更快响应，使用 3B 模型。
在 NVIDIA 机器上设置 GPU 层为 0： LM Studio 应自动检测 CUDA，但在新安装后有时默认为 0 GPU 层。打开模型面板 → GPU 层 → 拖到最大。在 RTX 4070（12GB VRAM）上，7B 模型的最大层从 8 tok/sec（CPU）移动到 80+ tok/sec（GPU）- 10 倍差异。
当 Q4_K_M 可用时下载 FP16 模型。 FP16 模型对于聊天任务比 Q4_K_M 大两倍，质量收益可忽略不计。7B 模型的 FP16 约为 14GB；同一模型在 Q4_K_M 约为 4.5GB。除非您有特定理由使用更高精度，否则始终默认下载 Q4_K_M。

FAQ

LM Studio 显示"没有足够的内存来加载模型"

模型需要比可用更多的 RAM。关闭其他应用以释放内存，或选择更小的量化。一般规则：将模型文件大小乘以 1.2 以估计所需的 RAM。

模型生成非常缓慢（每秒 5 个令牌以下）

模型完全在 CPU 上运行。检查右窗格中的 GPU 层 - 如果显示 0，您的 GPU 未被使用。在 macOS 上，LM Studio 自动为 Apple Silicon 启用 Metal。

我在 LM Studio 搜索中找不到特定模型

LM Studio 搜索 Hugging Face 以查找 GGUF 文件。如果模型没有出现，请尝试直接按 Hugging Face 存储库名称搜索。某些较新的模型可能尚未建立索引。

本地服务器返回"找不到模型"错误

必须在本地服务器选项卡中加载模型，服务器才能响应。打开本地服务器选项卡，从下拉菜单中选择一个模型，然后单击启动服务器。

LM Studio 免费吗？

是的。LM Studio 可供个人使用免费，没有功能限制。商业用途需要商业许可。截至 2026 年 4 月，个人级别没有使用上限、模型限制或水印。

LM Studio 和 Ollama 之间有什么区别？

LM Studio 是图形桌面应用 - 您通过可视界面浏览和下载模型、通过一次单击启动聊天、用滑块调整设置。Ollama 是命令行工具和后台服务 - 用单个命令设置更快。

LM Studio 可以使用哪些模型？

来自 Hugging Face 的任何 GGUF 格式模型。热门选择包括 Llama 3.1 8B、Qwen2.5 7B、Mistral 7B、Phi-4 Mini 和 Gemma 3 9B。在 Discover 选项卡中按模型名称搜索。

LM Studio 自动使用我的 GPU 吗？

在 Apple Silicon 上是的 - Metal 加速默认启用。在 Windows and Linux with NVIDIA 上，如果驱动程序已安装，LM Studio 会自动检测 CUDA。

LM Studio 在哪里存储下载的模型？

macOS：~/Library/Application Support/LM Studio/Models/lmstudio-community/。Windows：%USERPROFILE%.cachelm-studiomodels。Linux：~/.cache/lm-studio/models/。

我可以在 VS Code 或 Cursor 中使用 LM Studio 吗？

可以。在 localhost:1234 启动 LM Studio 本地服务器，然后配置您的 IDE 扩展以使用 http://localhost:1234/v1 作为 API 基本 URL。

资源

LM Studio. (2026). "LM Studio 文档和发行说明。" lmstudio.ai. https://lmstudio.ai/docs -- 官方安装指南、API 文档和硬件兼容性信息。
Hugging Face. (2026). "GGUF 模型中心。" https://huggingface.co/models?library=gguf -- 与 LM Studio 模型浏览器兼容的 GGUF 量化模型的完整目录。
llama.cpp 贡献者。(2026). "llama.cpp -- CPU/GPU 推理引擎。" https://github.com/ggerganov/llama.cpp -- LM Studio 使用的推理后端，带有硬件兼容性和性能数据。

如何安装 LM Studio：macOS、Windows 和 Linux 的桌面应用设置指南

LM Studio 是什么？

LM Studio 的系统要求是什么？

如何下载和安装 LM Studio

如何在 LM Studio 中查找和下载模型

如何在 LM Studio 中开始与模型聊天

如何在 LM Studio 中调整模型设置

如何启用 LM Studio 本地服务器

如何通过 Python 连接到 LM Studio

应该使用 LM Studio 还是 Ollama

如何排查 LM Studio 常见问题

LM Studio 显示"没有足够的内存来加载模型"

模型生成非常缓慢（每秒 5 个令牌以下）

我在 LM Studio 搜索中找不到特定模型

本地服务器返回"找不到模型"错误

对隐私敏感的用例 LM Studio

安装 LM Studio 时常见的错误是什么

延伸阅读

FAQ

LM Studio 显示"没有足够的内存来加载模型"

模型生成非常缓慢（每秒 5 个令牌以下）

我在 LM Studio 搜索中找不到特定模型

本地服务器返回"找不到模型"错误

LM Studio 免费吗？

LM Studio 和 Ollama 之间有什么区别？

LM Studio 可以使用哪些模型？

LM Studio 自动使用我的 GPU 吗？

LM Studio 在哪里存储下载的模型？

我可以在 VS Code 或 Cursor 中使用 LM Studio 吗？

资源

A Note on Third-Party Facts