2026年在自有硬件上运行AI的最佳本地LLM工具有哪些？

从运行时开始——Ollama是几乎所有人的最快路径，llama.cpp适合需要最底层控制的场景，vLLM适合需要为多用户提供服务的场景。在上层叠加桌面应用（LM Studio、Jan、GPT4All）或Web界面（Open WebUI、LibreChat）用于聊天。如果需要编辑器内自动补全和聊天，添加编程助手（Continue.dev、Cline、Aider）。如果需要基于自有文档的问答，添加RAG系统（AnythingLLM、PrivateGPT、Open WebUI内置RAG）。此外，本目录还覆盖智能体框架、语音与多模态、移动端客户端以及Obsidian/Logseq集成。完整目录列出了87个项目的许可证和主要链接。优先选择运行时——Ollama（最易上手）、llama.cpp（基础引擎）或vLLM（多用户服务）覆盖95%的使用场景。. 添加聊天界面——LM Studio（最佳GUI）、Jan（隐私优先）或Open WebUI（基于浏览器，热门自托管方案）。. 编程开发：Continue.dev用于自动补全和聊天，Cline用于自主智能体编辑，Aider用于终端内git原生工作。. 文档问答：AnythingLLM（最简单）、PrivateGPT（偏离线）、Open WebUI（聊天界面内置RAG）。. 移动端：Android选MLC Chat或PocketPal AI，iOS选Private LLM或Enchanted——均可在旗舰手机上实际运行2-4B模型。

本地LLM软件目录2026：70+工具一览

2026年本地LLM生态系统已足够庞大，选错工具会浪费数小时而不只是几分钟。本目录整理了87个活跃维护的项目，覆盖九个层级——运行时、桌面应用、Web界面、编程助手、RAG系统、智能体框架、语音与多模态、移动端客户端以及专业化生产力插件——每项附有描述、许可证和主要链接。在确定技术栈之前，将其作为"现有工具"全景图使用；每个类别末尾附有PromptQuorum该层详细对比指南的链接。

关键要点

九层架构，87个项目，一份全景图。运行时、桌面应用、Web界面、编程助手、RAG系统、智能体框架、语音/多模态、移动端客户端以及专业化生产力插件——2026年几乎所有主流项目都能归入其中某一层。
优先选择运行时。Ollama是约95%用户的默认选择；llama.cpp是大多数其他工具底层的核心引擎；vLLM适合在真实GPU上为多用户提供并发推理服务。
运行时以上的大多数层都是可选的。聊天只需一个桌面应用或Web界面即可。仅当需要IDE集成时才添加编程助手；仅当需要基于自有文档问答时才添加RAG系统；仅当单次调用不够用时才添加智能体框架。
商业使用时许可证至关重要。MIT和Apache 2.0许可证主导生态系统。少数Web界面（text-generation-webui、KoboldCpp、Jan、SillyTavern）采用AGPL——个人使用无碍，商业部署前需仔细评估。下方"许可证"列已明确列出每个项目的许可证。
多工具组合技术栈是常态。Ollama + Open WebUI + AnythingLLM + Continue.dev在单台机器上即可同时覆盖聊天、RAG和编程需求，互不冲突。下方"常见实用技术栈"表格列出了2026年经验证、实际可用的配方。

1. 本地LLM运行时与推理引擎

运行时是将模型权重加载到内存、将提示词转换为token的核心引擎。它是本地LLM技术栈的第一个决策，也制约着上层所有组件——每个桌面应用、Web界面和编程助手最终都会调用某个运行时。Ollama在2026年主导用户侧份额，原因在于它提供OpenAI兼容API并支持一条命令安装；llama.cpp是大多数其他工具底层的C++引擎；vLLM是在真实GPU上为多用户提供并发服务的首选。

Tool	Link	描述	许可证
Ollama	ollama.com	整体最易上手——一条命令安装，OpenAI兼容API，庞大的模型库	MIT
llama.cpp	github.com/ggml-org/llama.cpp	大多数其他工具底层的基础C++引擎，可在任何平台运行，包括Apple Silicon	MIT
vLLM	github.com/vllm-project/vllm	多用户GPU部署的高吞吐量推理服务	Apache 2.0
LocalAI	localai.io	支持多后端的OpenAI API直接替代方案	MIT
TensorRT-LLM	github.com/NVIDIA/TensorRT-LLM	NVIDIA针对企业级GPU优化的推理方案	Apache 2.0
MLC LLM	mlc.ai/mlc-llm	移动端与边缘设备部署运行时	Apache 2.0
SGLang	github.com/sgl-project/sglang	面向智能体流水线的结构化推理服务	Apache 2.0
ExLlamaV2	github.com/turboderp-org/exllamav2	针对RTX GPU优化的快速量化推理	MIT
KoboldCpp	github.com/LostRuins/koboldcpp	内置UI的轻量级llama.cpp封装	AGPL 3.0
Llamafile	github.com/Mozilla-Ocho/llamafile	Mozilla出品的单文件可移植LLM运行方案	Apache 2.0
MLX-LM	github.com/ml-explore/mlx-examples	Apple研究院出品的Apple Silicon原生运行时	MIT

深度指南：llama.cpp vs Ollama vs vLLM

2. 桌面图形界面应用

桌面应用将运行时封装成聊天界面和模型浏览器。它们是大多数非技术用户的起点，因为无需命令行操作——下载、点击、开始聊天。LM Studio、Jan和GPT4All在2026年占据了大部分用户群体；AnythingLLM兼具桌面应用和RAG层的双重功能；Open Interpreter是个特例，它允许本地模型直接操控用户的电脑并执行代码。

Tool	Link	描述	许可证
LM Studio	lmstudio.ai	最精良的GUI，内置HuggingFace模型浏览器，支持服务器模式	免费（闭源）
Jan	jan.ai	注重隐私的离线ChatGPT替代品，完全开源	AGPL 3.0
GPT4All	nomic.ai/gpt4all	面向初学者，纯CPU运行支持优秀	MIT
AnythingLLM	anythingllm.com	内置向量存储的RAG与文档问答工具	MIT
Msty	msty.app	简洁的消费级UX，支持多提供商	免费（闭源）
Cherry Studio	cherry-ai.com	支持多提供商、高度可定制的桌面AI工具	Apache 2.0
Faraday	faraday.dev	角色聊天与角色扮演桌面客户端	免费（闭源）
Enchanted	enchantedlabs.ai	macOS/iOS原生的极简Ollama客户端	MIT
h2oGPT	github.com/h2oai/h2ogpt	企业功能丰富的桌面与服务器方案	Apache 2.0
Open Interpreter	github.com/OpenInterpreter/open-interpreter	允许本地LLM操控电脑并执行代码	AGPL 3.0

深度指南：LM Studio vs Jan vs GPT4All

3. Web界面与浏览器前端

Web界面是自托管的ChatGPT替代方案——相同的对话界面，但指向运行在本地机器或局域网上的运行时。当需要多设备访问（笔记本、手机、平板同时连接一台服务器）或团队共用时，它们是自然之选。Open WebUI在2026年主导自托管市场，LibreChat是团队功能替代方案，SillyTavern专注角色扮演场景。

Tool	Link	描述	许可证
Open WebUI	openwebui.com	最受欢迎的自托管ChatGPT类界面，内置RAG	BSD 3-Clause
LibreChat	librechat.ai	具备团队功能的多模型ChatGPT替代方案	MIT
text-generation-webui	github.com/oobabooga/text-generation-webui	面向高级用户的UI，拥有丰富的插件生态	AGPL 3.0
SillyTavern	github.com/SillyTavern/SillyTavern	支持Lorebook的角色扮演聊天界面	AGPL 3.0
LobeChat	lobehub.com	带插件市场的现代精良UI	MIT
Big-AGI	github.com/enricoros/big-AGI	支持Persona的高级多提供商前端	MIT
NextChat	github.com/ChatGPTNextWeb/NextChat	轻量级Web聊天，部署简单	MIT
Page Assist	github.com/n4ze3m/page-assist	Chrome和Firefox的浏览器侧边栏AI	MIT
Chatbox	chatboxai.app	跨平台桌面与Web客户端	GPLv3

深度指南：SillyTavern vs Agnai vs RisuAI

4. 编程助手与IDE集成

编程助手通过OpenAI兼容API将本地LLM接入编辑器或终端。选择主要取决于工作流偏好：编辑器内自动补全（Continue.dev）、自主智能体编辑（Cline、OpenHands）或终端内git原生差异编辑（Aider）。三种模式均可与任何支持OpenAI Chat Completions协议的运行时配合使用——Ollama是2026年最常见的后端。

Tool	Link	描述	许可证
Continue.dev	continue.dev	支持本地模型的VS Code和JetBrains自动补全与聊天	Apache 2.0
Aider	aider.chat	支持多文件编辑的终端结对编程工具	Apache 2.0
Cline	cline.bot	VS Code的自主编程智能体	Apache 2.0
Tabby	tabby.tabbyml.com	自托管的GitHub Copilot替代方案	Apache 2.0
CodeGPT	codegpt.co	支持多编辑器的IDE集成工具	MIT
OpenHands	github.com/All-Hands-AI/OpenHands	AI软件工程智能体（原OpenDevin）	MIT
Cursor（本地模式）	cursor.com	支持本地模型的AI优先代码编辑器	免费（闭源）
Twinny	github.com/twinnydotdev/twinny	VS Code的免费Copilot替代插件	MIT

深度指南：Continue.dev vs Cline vs Aider

5. RAG与文档问答系统

RAG（检索增强生成）系统将本地LLM与嵌入模型和向量数据库结合，使模型能够基于自有文档进行问答。**主要分为两类：开箱即用的应用（AnythingLLM、PrivateGPT、Quivr、Khoj）和可二次开发的框架库（LlamaIndex、Haystack、txtai）。RAGFlow在2026年凭借文档级引用精准检索能力取得了显著的份额增长。

Tool	Link	描述	许可证
AnythingLLM	anythingllm.com	最易上手的一体化个人RAG工具，支持工作区	MIT
PrivateGPT	github.com/zylon-ai/private-gpt	完全离线的企业级RAG方案	Apache 2.0
Quivr	github.com/QuivrHQ/quivr	自托管的个人知识助手	Apache 2.0
Khoj	khoj.dev	个人AI第二大脑，可与Obsidian和Notion同步	AGPL 3.0
Dify	dify.ai	支持RAG和智能体的AI工作流构建工具	Modified Apache 2.0
Flowise	flowiseai.com	可视化LangChain工作流构建器	Apache 2.0
Langflow	langflow.org	带RAG组件的可视化AI编排工具	MIT
LlamaIndex	llamaindex.ai	RAG框架/Python库——自定义构建的基础	MIT
Haystack	haystack.deepset.ai	deepset出品的搜索与RAG框架	Apache 2.0
RAGFlow	ragflow.io	深度文档理解RAG，支持引用提取	Apache 2.0
txtai	github.com/neuml/txtai	将向量数据库与LLM合为一体的嵌入式库	Apache 2.0

深度指南：AnythingLLM vs PrivateGPT vs Open WebUI

6. 智能体框架与编排工具

智能体框架将单次LLM调用转变为多步骤工作流——计划、行动、观察、循环。LangChain仍是通用默认选择；CrewAI和AutoGen专注于基于角色的多智能体场景；LangGraph在长时运行流程中的状态管理方面表现更优。以下所有八个框架均可与本地Ollama后端无缝配合。

Tool	Link	描述	许可证
LangChain	langchain.com	通用LLM应用框架	MIT
LlamaIndex	llamaindex.ai	以RAG为核心的智能体与数据框架	MIT
CrewAI	crewai.com	基于角色的多智能体工作流	MIT
AutoGen	github.com/microsoft/autogen	Microsoft多智能体编排框架	CC-BY-4.0 / MIT
Semantic Kernel	learn.microsoft.com/semantic-kernel	Microsoft企业级编排SDK，支持C#/Python/Java	MIT
LangGraph	langchain-ai.github.io/langgraph	基于状态图的智能体工作流	MIT
Letta（原MemGPT）	letta.com	长期记忆智能体	Apache 2.0
Pydantic AI	ai.pydantic.dev	基于Pydantic的类型安全智能体框架	MIT

深度指南：使用MCP的本地AI智能体

7. 语音、语音合成与多模态

语音和多模态技术栈将本地LLM的能力从文本扩展至语音输入（STT）、语音输出（TTS）和视觉理解。Whisper.cpp和faster-whisper占据本地STT层；Piper和Coqui共享TTS层，XTTS v2主导语音克隆；LLaVA和Ollama视觉模型覆盖视觉端。基于这一层加上一个小型聊天模型，即可构建完全离线的语音助手。

Tool	Link	描述	许可证
Whisper.cpp	github.com/ggerganov/whisper.cpp	本地语音识别，支持CPU或GPU运行	MIT
faster-whisper	github.com/SYSTRAN/faster-whisper	通过CTranslate2实现的快速Whisper转录	MIT
Piper TTS	github.com/rhasspy/piper	轻量级本地文字转语音	MIT
Coqui TTS	coqui.ai	支持多模型的开源语音合成	MPL 2.0
XTTS v2	docs.coqui.ai/en/latest/models/xtts.html	支持多语言的语音克隆	CPML
Bark	github.com/suno-ai/bark	支持非语音声音的生成式语音	MIT
StyleTTS 2	github.com/yl4579/StyleTTS2	高质量自然音色TTS	MIT
LLaVA	llava-vl.github.io	本地视觉+语言模型	Apache 2.0
Ollama视觉模型	ollama.com	通过Ollama运行的本地视觉模型（Llama 3.2 Vision、Llava等）	Various

深度指南：在手机上构建本地语音助手

8. 移动端与边缘客户端

移动端客户端使用Apple Neural Engine、高通NPU或纯CPU推理直接在手机上运行量化模型。MLC LLM是基础层；消费级应用（PocketPal AI、Private LLM、LLM Farm、Layla）在其上封装了聊天界面。2026年旗舰手机以实用速度（8-15 tokens/秒）运行2-4B模型；7B模型对顶级硬件来说处于可行性边缘。

Tool	Link	描述	许可证
MLC Chat	mlc.ai/mlc-llm	跨平台移动端LLM运行时	Apache 2.0
PocketPal AI	github.com/a-ghorbani/pocketpal-ai	免费的iOS和Android本地LLM客户端	MIT
Private LLM	privatellm.app	精良的iOS和macOS本地LLM应用	付费（闭源）
LLM Farm	github.com/guinmoon/LLMFarm	带模型浏览器的iOS本地LLM	MIT
Layla	layla-network.ai	Android优先的本地LLM应用	免费（闭源）
Maid	github.com/Mobile-Artificial-Intelligence/maid	开源Flutter移动端LLM应用	MIT
Enchanted	enchantedlabs.ai	iOS/macOS原生Ollama客户端	MIT
Chapper	prevolut.uk	Ollama和LM Studio的原生移动客户端	免费
RikkaHub	github.com/rikkahub/rikkahub	开源Android本地AI	MIT
AnythingLLM Mobile	anythingllm.com	远程访问本地AnythingLLM工作区	MIT

深度指南：2026年iPhone最佳本地LLM应用

9. 专业化与生产力工具

专业化工具将本地LLM嵌入您已在使用的应用——笔记平台（Obsidian、Logseq、Joplin）、自主任务智能体（AutoGPT、BabyAGI、MetaGPT）以及角色扮演前端（Agnai、RisuAI）。这些不是通用聊天界面，而是面向特定工作流的集成方案，前提是您已有宿主应用和运行时。

Tool	Link	描述	许可证
Smart Connections	github.com/brianpetro/obsidian-smart-connections	Obsidian语义搜索与聊天插件	GPL 3.0
Copilot for Obsidian	github.com/logancyang/obsidian-copilot	Obsidian本地LLM聊天插件	AGPL 3.0
Text Generator	github.com/nhaouari/obsidian-textgenerator-plugin	Obsidian内容生成插件	MIT
logseq-copilot	github.com/logancyang/logseq-copilot	支持本地和云端LLM聊天的Logseq插件，与Obsidian Copilot同一作者	AGPL 3.0
BMO Chatbot	github.com/longy2k/obsidian-bmo-chatbot	集成本地LLM的Obsidian聊天机器人	MIT
Joplin AI	joplinapp.org	集成本地AI的Joplin笔记	MIT
AutoGPT（本地）	github.com/Significant-Gravitas/AutoGPT	支持Ollama的自主任务智能体	MIT
BabyAGI	github.com/yoheinakajima/babyagi	轻量级自主智能体	MIT
MetaGPT	github.com/geekan/MetaGPT	多智能体软件公司模拟框架	MIT
Agnai	agnai.chat	支持角色卡的角色扮演前端	MIT
RisuAI	github.com/kwaroran/RisuAI	移动端友好的角色扮演前端	GPL 3.0

深度指南：2026年本地LLM与Obsidian集成

常见实用技术栈

不想逐一阅读九个类别的读者，直接选择最接近的技术栈并复用即可。每行将实际目标与经过验证的工具组合及最低硬件要求配对。

目标	技术栈	最低硬件要求
日常随意聊天	LM Studio单独运行	16 GB内存，无需GPU
高级用户最佳平衡	Ollama + Open WebUI	16 GB内存，可选GPU
文档问答	Ollama + AnythingLLM	16 GB内存，可选GPU
编程开发	Ollama + Continue.dev	16 GB内存 + 推荐GPU
角色扮演/创意写作	KoboldCpp + SillyTavern	16 GB内存，推荐GPU
隐私优先的企业场景	Ollama + Open WebUI + PrivateGPT	32 GB内存 + 12 GB VRAM
移动/外出使用	MLC Chat或PocketPal AI	iPhone 13+/Pixel 7+
Apple Silicon	Ollama（MLX后端）或LM Studio	M2/M3/M4/M5，16+ GB统一内存
多用户团队	vLLM + Open WebUI	32+ GB内存 + 多GPU

本目录如何保持及时更新

中国（数据安全法）： 中国2021年《数据安全法》对数据本地化处理和跨境传输有明确规定。本地推理在技术上直接满足合规需求——模型权重和推理计算全部在本地完成，数据不经过任何第三方云服务器。对于需要处理中文企业文本的场景（金融报告、医疗记录、法律合同），在中文理解和指令遵循方面具有针对性优化的模型是本地部署的可选方案，可在满足数据留存要求的同时实现文档理解与知识问答。 亚太地区（数据跨境合规）： 亚太地区各经济体正在建立和完善数据本地化框架。本地推理是满足跨境数据传输限制的技术路径——在本地运行模型意味着推理输入和输出不需要离开所在司法管辖区。对于在多个亚太市场运营的企业，在每个合规区域内部署独立的本地LLM实例，是规避数据主权合规风险的实践路径之一。 企业部署（金融、医疗、法律）： 在受监管行业，金融机构、医院和律所通常面临严格的数据外发限制。本地LLM部署——尤其是与RAG系统结合后——可在不向外部云服务发送任何敏感数据的前提下实现文档理解、合同分析和知识库问答等用例。本目录每六个月审查一次（下次更新：2026年11月）。纳入标准：项目在过去90天内活跃维护、具备可验证的开源许可证或明确的商业使用声明，并在2026年拥有一定用户基础或填补了某一层的空缺。如需建议纳入某个项目，请向PromptQuorum仓库提交issue或PR，附上项目URL、许可证及上述格式的一句话描述。

参考来源

ggml-org/llama.cpp GitHub — 运行时架构和支持模型的主要信息来源。
Ollama Library — 官方模型目录和运行时文档。
LM Studio Documentation — 主流桌面GUI的功能参考。
Open WebUI Documentation — 主流自托管Web界面的功能参考。
Hugging Face Hub — 上述所有运行时消费的模型权重的主要下载来源。
awesome-local-llm GitHub list — 用于验证项目纳入范围的社区维护清单。

常见问题

本地LLM运行时与桌面应用有什么区别？

运行时（Ollama、llama.cpp、vLLM）是加载模型权重并提供API的引擎——通常与OpenAI兼容。桌面应用（LM Studio、Jan、GPT4All）是调用底层运行时的聊天界面。部分应用内置运行时（LM Studio内嵌llama.cpp），其他则需要单独安装运行时（Open WebUI调用Ollama）。运行时决定能做什么；应用决定使用是否便捷。

我可以同时使用此列表中的多个工具吗？

可以——大多数技术栈会组合2-4个工具。常见配置：Ollama作为运行时，Open WebUI用于聊天，AnythingLLM用于文档问答，Continue.dev用于编程——这四个工具可在单台机器上同时运行，共享同一个Ollama实例。上方"常见实用技术栈"表格列出了互不冲突的配方。

哪些工具支持完全离线使用且无遥测？

Ollama、llama.cpp、vLLM、Jan、GPT4All、Open WebUI、AnythingLLM、PrivateGPT、Continue.dev、Aider、KoboldCpp、Llamafile、MLX-LM以及本目录中大多数AGPL/MIT许可证应用在模型下载完成后均可完全离线使用。LM Studio和部分闭源工具提供可在设置中禁用的可选分析功能——建议安装后运行一次抓包验证。基于本地后端配置的Web界面（Open WebUI、LibreChat）仅在本地运行。

这些工具中是否有商业许可限制？

部分工具有限制：LM Studio、Msty、Faraday、Layla和Cursor是闭源软件——通常免费使用但不可再分发，商业条款各异。Private LLM需付费。AGPL许可工具（Jan、KoboldCpp、text-generation-webui、SillyTavern、Khoj、Open Interpreter、Copilot for Obsidian）可用于任何用途包括商业用途，但AGPL条款要求在公开托管修改版本时披露源代码。Apache 2.0和MIT项目（占多数）在任何场景下均可使用，无需超出许可证文本范围的归因要求。

哪些工具原生支持Apple Silicon（M系列芯片）？

Ollama、llama.cpp、MLX-LM、LM Studio、Jan、Enchanted、GPT4All、MLC Chat、AnythingLLM以及大多数Electron/Tauri应用均可原生运行于Apple Silicon并使用Metal后端。MLX-LM专为Apple设计，是M系列芯片上大型模型的最快选择。vLLM、TensorRT-LLM和ExLlamaV2以NVIDIA为主，在Apple Silicon上无法运行或性能欠佳——对于Apple用户，使用Metal后端的Ollama是默认选择。

这些工具都支持GGUF模型格式吗？

GGUF是llama.cpp及所有基于它的工具（Ollama、LM Studio、Jan、GPT4All、KoboldCpp、Llamafile）的原生格式。vLLM和TensorRT-LLM使用其自有优化格式（通常为AWQ或FP16）以获得更高吞吐量。ExLlamaV2使用EXL2量化。MLX-LM使用MLX转换后的权重。大多数列出的工具支持GGUF；少数（vLLM、TensorRT-LLM、ExLlamaV2、MLX-LM）需要从原始Hugging Face权重进行一次性格式转换。

对于没有编程经验的用户，哪些工具最合适？

GPT4All安装最简单（一键安装，8 GB内存即可运行）。LM Studio功能最丰富且无需使用终端。Jan是无代码选项中隐私保护最完善的。无需命令行的文档问答首选AnythingLLM。以上四款均列于上方桌面图形界面应用类别中。

我能在服务器上运行这些工具并远程访问吗？

大多数支持服务器部署的工具（Ollama、vLLM、LocalAI、Open WebUI、LibreChat、PrivateGPT、AnythingLLM）提供HTTP API，并可在设置中配置网络接口。标准模式：在家庭服务器或VPS上运行Ollama，在笔记本或手机上运行指向服务器IP的UI界面。将API视为普通Web服务处理——通过反向代理绑定到localhost，或在配有适当认证的私有网络中使用。Open WebUI开箱即支持多用户管理。

哪些工具支持多用户/团队使用场景？

Open WebUI、LibreChat、h2oGPT、AnythingLLM（启用管理功能时）和Dify专为多用户设计，具备基于角色的访问控制和用户独立的对话历史。当并发推理性能至关重要时，vLLM是合适的服务层——它通过批处理多用户请求实现Ollama在并发超过约3个时无法达到的吞吐量。

本目录多久更新一次？

每六个月更新一次——下次计划更新为2026年11月。中期变化（项目失活、新工具取得显著份额、许可证变更）将以补丁形式应用到现有条目。全新类别或层级等待定期更新以保持结构稳定。上方"参考来源"部分列出了更新之间用于监测生态系统动态的社区索引。

本地LLM软件完整目录：70+款工具，在自有硬件上运行AI（2026）