Skip to main content
PromptQuorumPromptQuorum
主页/本地LLM/如何安装 LM Studio:macOS、Windows 和 Linux 的桌面应用设置指南
入门

如何安装 LM Studio:macOS、Windows 和 Linux 的桌面应用设置指南

·阅读约7分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

LM Studio 是一个免费的桌面应用程序,可以不需要终端命令就运行本地 LLM。从 lmstudio.ai 下载安装程序,打开应用,按名称搜索模型,单击下载,然后开始聊天 - 整个过程在 5 分钟内完成。截至 2026 年 4 月,LM Studio 在 macOS(Apple Silicon 和 Intel)、Windows 10+ 和 Linux(AppImage)上运行,支持 Hugging Face 500,000 多个模型库中的任何 GGUF 量化模型。它包括内置聊天 UI、localhost:1234 上的 OpenAI 兼容本地服务器,以及 Apple Metal、NVIDIA CUDA 和 AMD ROCm 的自动 GPU 加速。

关键要点

  • 从 lmstudio.ai 下载 LM Studio - 可在 macOS(Apple Silicon + Intel)、Windows 和 Linux(AppImage)上使用。
  • 最低要求:8GB RAM。推荐:7B 模型使用 16GB RAM。Apple Silicon Mac 默认使用 GPU 加速。
  • 内置模型浏览器直接搜索 Hugging Face - 不离开应用下载 GGUF 模型。
  • LM Studio 包括内置聊天 UI 和端口 1234 上的 OpenAI 兼容本地服务器。
  • 最适合:喜欢 GUI 的初学者、想并排比较多个模型的用户、需要完整包而不使用终端命令的所有人。

LM Studio 是什么?

LM Studio 是运行本地 LLM 的桌面应用程序。 它提供图形模型浏览器、内置聊天界面和本地 API 服务器 - 全部在一个应用中。在内部,它使用 llama.cpp 进行推理,这是与 Ollama(Ollama)相同的引擎。

LM Studio 与 Ollama 的主要区别是它完全由 GUI 驱动。您通过应用界面浏览和下载模型、通过一次单击启动聊天,并使用滑块而不是配置文件管理模型设置。

LM Studio 可供个人使用免费。由 LM Studio,Inc. 开发,2023 年发布。截至 2026 年,它支持 NVIDIA CUDA、AMD ROCm 和 Apple Metal 加速。

LM Studio 的系统要求是什么?

规格最低要求推荐
操作系统macOS 13.6、Windows 10、Ubuntu 22.04macOS 14+、Windows 11、Ubuntu 24.04
RAM8GB16GB 或更高
存储App 500 MB + 模型空间50GB+ 多个模型的空闲空间
GPU(可选)NVIDIA GTX 10 系列或更新版本NVIDIA RTX 40/50 系列、AMD RX 7000+ 或 Apple M-series

如何下载和安装 LM Studio

  1. 1
    访问 lmstudio.ai 并单击您的操作系统的下载按钮。
  2. 2
    macOS:打开 .dmg 文件并将 LM Studio 拖到应用程序。首次启动时,在系统偏好设置 → 隐私和安全中批准安全提示。
  3. 3
    Windows:运行 LM-Studio-Setup.exe 安装程序。LM Studio 安装在 %LOCALAPPDATA%\LM-Studio。
  4. 4
    Linux:下载 .AppImage 文件。用 `chmod +x LM-Studio-*.AppImage` 使其可执行并运行。不需要系统安装。
  5. 5
    首次启动时,LM Studio 会显示欢迎屏幕并提示您下载模型。

如何在 LM Studio 中查找和下载模型

使用搜索选项卡(左侧边栏中的放大镜图标)查找模型:

  1. 1
    单击左侧边栏中的搜索选项卡。
  2. 2
    键入模型名称 - 例如"llama 3.1"或"phi-3 mini"。
  3. 3
    LM Studio 显示来自 Hugging Face 的匹配 GGUF 模型,带有文件大小和量化选项。
  4. 4
    选择量化级别。对于 8GB RAM:选择 Q4_K_M(7B 模型约 4.5GB)。对于 16GB RAM:Q5_K_M 或 Q6_K 提供更好的质量。
  5. 5
    单击下载箭头。进度显示在下载选项卡中。

如何在 LM Studio 中开始与模型聊天

  1. 1
    单击左侧边栏中的聊天选项卡(语音气泡图标)。
  2. 2
    在聊天窗口顶部,单击模型选择器下拉菜单并选择您下载的模型。
  3. 3
    LM Studio 将模型加载到内存 - 这根据模型大小和硬件需要 5-30 秒。
  4. 4
    在底部的输入字段中输入您的消息,然后按 Enter 或单击发送。
  5. 5
    模型的响应逐个令牌流式传输。生成速度出现在窗口底部的状态栏中。

如何在 LM Studio 中调整模型设置

聊天选项卡中的右窗格公开关键推理参数:

  • 温度(默认 0.8):控制响应随机性。较低的值(0.1-0.4)产生更集中、可预测的输出。较高的值(0.8-1.2)产生更多样化、创意的输出。
  • 上下文长度(默认 4096 令牌):模型可以处理的最大对话历史。更长的上下文使用更多 RAM。大多数 7B 模型支持 4096-8192 令牌。
  • GPU 层(macOS/Linux/Windows with GPU):有多少模型层卸载到 GPU。如果您的 GPU 有足够的 VRAM,设置为最大以实现最快推理。
  • 系统提示:在每次对话前添加的持久指令。使用此设置模型的角色或行为。

如何启用 LM Studio 本地服务器

LM Studio 包括一个模仿 OpenAI API 的本地服务器。任何适用于 OpenAI 的应用都可以通过此服务器使用您的本地模型:

  1. 1
    单击左侧边栏中的本地服务器选项卡("<->"图标)。
  2. 2
    在顶部的模型下拉菜单中选择一个模型。
  3. 3
    单击"启动服务器"。服务器在 http://localhost:1234 上启动。
  4. 4
    您的应用应设置 `base_url = "http://localhost:1234/v1"` 和任何字符串作为 API 密钥(服务器接受任何值)。

如何通过 Python 连接到 LM Studio

python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="local-model",
    messages=[{"role": "user", "content": "What is a local LLM?"}]
)
print(response.choices[0].message.content)

应该使用 LM Studio 还是 Ollama

因素LM StudioOllama
界面图形桌面应用终端 + API
模型源Hugging Face(任何 GGUF 模型)Ollama 库(策划,约 200 个模型)
API 端口localhost:1234localhost:11434
模型管理带文件大小信息的 GUI 浏览器CLI 命令(ollama pull、list、rm)
自动化有限(GUI 为中心)强大(脚本、Docker、CI)
最适合初学者、GUI 用户、模型探索开发人员、自动化、服务器部署

如何排查 LM Studio 常见问题

LM Studio 显示"没有足够的内存来加载模型"

模型需要比可用更多的 RAM。关闭其他应用以释放内存,或选择更小的量化(Q3_K_S 而不是 Q4_K_M)。一般规则:将模型文件大小乘以 1.2 以估计所需的 RAM。4.5GB 文件需要约 5.4GB 可用 RAM。

模型生成非常缓慢(每秒 5 个令牌以下)

模型完全在 CPU 上运行。检查右窗格中的 GPU 层 - 如果显示 0,您的 GPU 未被使用。在 macOS 上,LM Studio 自动为 Apple Silicon 启用 Metal(GPU)。在 Windows/Linux with NVIDIA 上,确保您的驱动程序是最新的,并将 GPU 层增加到显示的最大值。

我在 LM Studio 搜索中找不到特定模型

LM Studio 搜索 Hugging Face 以查找 GGUF 文件。如果模型没有出现,请尝试直接按 Hugging Face 存储库名称搜索(例如"bartowski/Llama-3.1-8B-Instruct-GGUF")。某些较新的模型可能尚未建立索引。

本地服务器返回"找不到模型"错误

必须在本地服务器选项卡中加载模型,服务器才能响应。打开本地服务器选项卡,从下拉菜单中选择一个模型,然后单击启动服务器。API 请求中的模型名称可以是任何字符串 - LM Studio 使用当前加载的模型。

对隐私敏感的用例 LM Studio

中国(数据安全法):LM Studio 支持通过 Hugging Face 搜索原生 Qwen3 模型 - 在模型浏览器中搜索"qwen2.5"以查找所有可用大小。对于中文文本工作流,Qwen3 7B 或 14B 比同参数数量的西方训练模型在中文文本上提供 30-40% 更好的令牌效率。所有推理在本地运行,根据中国数据安全法(数据安全法),无外部 API 调用。

亚太地区(数据跨境):LM Studio 在本地运行所有推理,符合 MLAI(多边人工智能)框架和地区数据驻留要求。对于在亚太地区处理敏感数据的企业,LM Studio 消除了数据跨越国界的风险。

企业部署:LM Studio 提供零出口推理,适合金融、医疗和法律行业的监管合规。所有数据留在本地设备上,简化了审计和数据保护认证。

安装 LM Studio 时常见的错误是什么

  • 未为所选模型分配足够的系统 RAM。 检查模型文件大小并乘以 1.2 - 这是所需的最小可用 RAM。4.5GB Q4_K_M 7B 模型需要约 5.4GB 可用 RAM。
  • 使用预量化模型仍然对您的 GPU VRAM 来说太大。 如果模型超过 VRAM,LM Studio 会回退到 CPU 推理,速度快 5-10 倍。在下载前检查文件大小与您的 GPU VRAM。
  • 期望来自 CPU 专用系统上大型模型的即时响应。 7B 模型在 CPU 上生成 8-20 令牌/秒 - 200 令牌响应需要 10-25 秒。这是正常的。对于仅 CPU 机器上的更快响应,使用 3B 模型。
  • 在 NVIDIA 机器上设置 GPU 层为 0: LM Studio 应自动检测 CUDA,但在新安装后有时默认为 0 GPU 层。打开模型面板 → GPU 层 → 拖到最大。在 RTX 4070(12GB VRAM)上,7B 模型的最大层从 8 tok/sec(CPU)移动到 80+ tok/sec(GPU)- 10 倍差异。
  • 当 Q4_K_M 可用时下载 FP16 模型。 FP16 模型对于聊天任务比 Q4_K_M 大两倍,质量收益可忽略不计。7B 模型的 FP16 约为 14GB;同一模型在 Q4_K_M 约为 4.5GB。除非您有特定理由使用更高精度,否则始终默认下载 Q4_K_M。

延伸阅读

常见问题

LM Studio 显示"没有足够的内存来加载模型"

模型需要比可用更多的 RAM。关闭其他应用以释放内存,或选择更小的量化。一般规则:将模型文件大小乘以 1.2 以估计所需的 RAM。

模型生成非常缓慢(每秒 5 个令牌以下)

模型完全在 CPU 上运行。检查右窗格中的 GPU 层 - 如果显示 0,您的 GPU 未被使用。在 macOS 上,LM Studio 自动为 Apple Silicon 启用 Metal。

我在 LM Studio 搜索中找不到特定模型

LM Studio 搜索 Hugging Face 以查找 GGUF 文件。如果模型没有出现,请尝试直接按 Hugging Face 存储库名称搜索。某些较新的模型可能尚未建立索引。

本地服务器返回"找不到模型"错误

必须在本地服务器选项卡中加载模型,服务器才能响应。打开本地服务器选项卡,从下拉菜单中选择一个模型,然后单击启动服务器。

LM Studio 免费吗?

是的。LM Studio 可供个人使用免费,没有功能限制。商业用途需要商业许可。截至 2026 年 4 月,个人级别没有使用上限、模型限制或水印。

LM Studio 和 Ollama 之间有什么区别?

LM Studio 是图形桌面应用 - 您通过可视界面浏览和下载模型、通过一次单击启动聊天、用滑块调整设置。Ollama 是命令行工具和后台服务 - 用单个命令设置更快。

LM Studio 可以使用哪些模型?

来自 Hugging Face 的任何 GGUF 格式模型。热门选择包括 Llama 3.3 8B、Qwen3 7B、Mistral Small、Phi-4 Mini 和 Gemma 3 9B。在 Discover 选项卡中按模型名称搜索。

LM Studio 自动使用我的 GPU 吗?

在 Apple Silicon 上是的 - Metal 加速默认启用。在 Windows and Linux with NVIDIA 上,如果驱动程序已安装,LM Studio 会自动检测 CUDA。

LM Studio 在哪里存储下载的模型?

macOS:~/Library/Application Support/LM Studio/Models/lmstudio-community/。Windows:%USERPROFILE%.cachelm-studiomodels。Linux:~/.cache/lm-studio/models/。

我可以在 VS Code 或 Cursor 中使用 LM Studio 吗?

可以。在 localhost:1234 启动 LM Studio 本地服务器,然后配置您的 IDE 扩展以使用 http://localhost:1234/v1 作为 API 基本 URL。

资源

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前,请在每个提供商的官方来源核实当前数据:Hugging Face模型卡用于许可证和基准测试,提供商网站用于API定价,EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

加入PromptQuorum等待列表 →

← 返回本地LLM