PromptQuorumPromptQuorum
主页/Power Local LLM/本地LLM软件完整目录:70+款工具,在自有硬件上运行AI(2026)
Overview & Reference

本地LLM软件完整目录:70+款工具,在自有硬件上运行AI(2026)

·阅读约20分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

2026年本地LLM生态系统清晰地分为九个层级。运行时(Ollama、llama.cpp、vLLM)将token送入模型;桌面应用(LM Studio、Jan、GPT4All)将运行时封装进聊天界面;Web界面(Open WebUI、LibreChat)在浏览器中实现相同功能;编程助手(Continue.dev、Cline、Aider)将本地模型接入编辑器;RAG系统(AnythingLLM、PrivateGPT)使模型能够回答基于自有文档的问题;智能体框架(LangChain、CrewAI、LangGraph)将调用串联成多步骤工作流;语音与多模态技术栈(Whisper.cpp、Piper、LLaVA)将能力延伸至文本以外;移动端客户端(MLC Chat、PocketPal AI)将其带到手机上;专业化生产力插件(Obsidian、Logseq、AutoGPT)将其嵌入您已在使用的工具。优先选择运行时(几乎所有人选Ollama),再在上面叠加一到两层。下方目录列出了每个层级中所有值得了解的项目及其许可证,方便您规划一个从头到尾完全开源的技术栈(如果这对您很重要)。**

2026年本地LLM生态系统已足够庞大,选错工具会浪费数小时而不只是几分钟。本目录整理了87个活跃维护的项目,覆盖九个层级——运行时、桌面应用、Web界面、编程助手、RAG系统、智能体框架、语音与多模态、移动端客户端以及专业化生产力插件——每项附有描述、许可证和主要链接。在确定技术栈之前,将其作为"现有工具"全景图使用;每个类别末尾附有PromptQuorum该层详细对比指南的链接。

关键要点

  • 九层架构,87个项目,一份全景图。运行时、桌面应用、Web界面、编程助手、RAG系统、智能体框架、语音/多模态、移动端客户端以及专业化生产力插件——2026年几乎所有主流项目都能归入其中某一层。
  • 优先选择运行时。Ollama是约95%用户的默认选择;llama.cpp是大多数其他工具底层的核心引擎;vLLM适合在真实GPU上为多用户提供并发推理服务。
  • 运行时以上的大多数层都是可选的。聊天只需一个桌面应用或Web界面即可。仅当需要IDE集成时才添加编程助手;仅当需要基于自有文档问答时才添加RAG系统;仅当单次调用不够用时才添加智能体框架。
  • 商业使用时许可证至关重要。MIT和Apache 2.0许可证主导生态系统。少数Web界面(text-generation-webui、KoboldCpp、Jan、SillyTavern)采用AGPL——个人使用无碍,商业部署前需仔细评估。下方"许可证"列已明确列出每个项目的许可证。
  • 多工具组合技术栈是常态。Ollama + Open WebUI + AnythingLLM + Continue.dev在单台机器上即可同时覆盖聊天、RAG和编程需求,互不冲突。下方"常见实用技术栈"表格列出了2026年经验证、实际可用的配方。

1. 本地LLM运行时与推理引擎

运行时是将模型权重加载到内存、将提示词转换为token的核心引擎。它是本地LLM技术栈的第一个决策,也制约着上层所有组件——每个桌面应用、Web界面和编程助手最终都会调用某个运行时。Ollama在2026年主导用户侧份额,原因在于它提供OpenAI兼容API并支持一条命令安装;llama.cpp是大多数其他工具底层的C++引擎;vLLM是在真实GPU上为多用户提供并发服务的首选。

ToolLink描述许可证
Ollamaollama.com整体最易上手——一条命令安装,OpenAI兼容API,庞大的模型库MIT
llama.cppgithub.com/ggml-org/llama.cpp大多数其他工具底层的基础C++引擎,可在任何平台运行,包括Apple SiliconMIT
vLLMgithub.com/vllm-project/vllm多用户GPU部署的高吞吐量推理服务Apache 2.0
LocalAIlocalai.io支持多后端的OpenAI API直接替代方案MIT
TensorRT-LLMgithub.com/NVIDIA/TensorRT-LLMNVIDIA针对企业级GPU优化的推理方案Apache 2.0
MLC LLMmlc.ai/mlc-llm移动端与边缘设备部署运行时Apache 2.0
SGLanggithub.com/sgl-project/sglang面向智能体流水线的结构化推理服务Apache 2.0
ExLlamaV2github.com/turboderp-org/exllamav2针对RTX GPU优化的快速量化推理MIT
KoboldCppgithub.com/LostRuins/koboldcpp内置UI的轻量级llama.cpp封装AGPL 3.0
Llamafilegithub.com/Mozilla-Ocho/llamafileMozilla出品的单文件可移植LLM运行方案Apache 2.0
MLX-LMgithub.com/ml-explore/mlx-examplesApple研究院出品的Apple Silicon原生运行时MIT

深度指南:llama.cpp vs Ollama vs vLLM

2. 桌面图形界面应用

桌面应用将运行时封装成聊天界面和模型浏览器。它们是大多数非技术用户的起点,因为无需命令行操作——下载、点击、开始聊天。LM Studio、Jan和GPT4All在2026年占据了大部分用户群体;AnythingLLM兼具桌面应用和RAG层的双重功能;Open Interpreter是个特例,它允许本地模型直接操控用户的电脑并执行代码。

ToolLink描述许可证
LM Studiolmstudio.ai最精良的GUI,内置HuggingFace模型浏览器,支持服务器模式免费(闭源)
Janjan.ai注重隐私的离线ChatGPT替代品,完全开源AGPL 3.0
GPT4Allnomic.ai/gpt4all面向初学者,纯CPU运行支持优秀MIT
AnythingLLManythingllm.com内置向量存储的RAG与文档问答工具MIT
Mstymsty.app简洁的消费级UX,支持多提供商免费(闭源)
Cherry Studiocherry-ai.com支持多提供商、高度可定制的桌面AI工具Apache 2.0
Faradayfaraday.dev角色聊天与角色扮演桌面客户端免费(闭源)
Enchantedenchantedlabs.aimacOS/iOS原生的极简Ollama客户端MIT
h2oGPTgithub.com/h2oai/h2ogpt企业功能丰富的桌面与服务器方案Apache 2.0
Open Interpretergithub.com/OpenInterpreter/open-interpreter允许本地LLM操控电脑并执行代码AGPL 3.0

深度指南:LM Studio vs Jan vs GPT4All

3. Web界面与浏览器前端

Web界面是自托管的ChatGPT替代方案——相同的对话界面,但指向运行在本地机器或局域网上的运行时。当需要多设备访问(笔记本、手机、平板同时连接一台服务器)或团队共用时,它们是自然之选。Open WebUI在2026年主导自托管市场,LibreChat是团队功能替代方案,SillyTavern专注角色扮演场景。

ToolLink描述许可证
Open WebUIopenwebui.com最受欢迎的自托管ChatGPT类界面,内置RAGBSD 3-Clause
LibreChatlibrechat.ai具备团队功能的多模型ChatGPT替代方案MIT
text-generation-webuigithub.com/oobabooga/text-generation-webui面向高级用户的UI,拥有丰富的插件生态AGPL 3.0
SillyTaverngithub.com/SillyTavern/SillyTavern支持Lorebook的角色扮演聊天界面AGPL 3.0
LobeChatlobehub.com带插件市场的现代精良UIMIT
Big-AGIgithub.com/enricoros/big-AGI支持Persona的高级多提供商前端MIT
NextChatgithub.com/ChatGPTNextWeb/NextChat轻量级Web聊天,部署简单MIT
Page Assistgithub.com/n4ze3m/page-assistChrome和Firefox的浏览器侧边栏AIMIT
Chatboxchatboxai.app跨平台桌面与Web客户端GPLv3

深度指南:SillyTavern vs Agnai vs RisuAI

4. 编程助手与IDE集成

编程助手通过OpenAI兼容API将本地LLM接入编辑器或终端。选择主要取决于工作流偏好:编辑器内自动补全(Continue.dev)、自主智能体编辑(Cline、OpenHands)或终端内git原生差异编辑(Aider)。三种模式均可与任何支持OpenAI Chat Completions协议的运行时配合使用——Ollama是2026年最常见的后端。

ToolLink描述许可证
Continue.devcontinue.dev支持本地模型的VS Code和JetBrains自动补全与聊天Apache 2.0
Aideraider.chat支持多文件编辑的终端结对编程工具Apache 2.0
Clinecline.botVS Code的自主编程智能体Apache 2.0
Tabbytabby.tabbyml.com自托管的GitHub Copilot替代方案Apache 2.0
CodeGPTcodegpt.co支持多编辑器的IDE集成工具MIT
OpenHandsgithub.com/All-Hands-AI/OpenHandsAI软件工程智能体(原OpenDevin)MIT
Cursor(本地模式)cursor.com支持本地模型的AI优先代码编辑器免费(闭源)
Twinnygithub.com/twinnydotdev/twinnyVS Code的免费Copilot替代插件MIT

深度指南:Continue.dev vs Cline vs Aider

5. RAG与文档问答系统

RAG(检索增强生成)系统将本地LLM与嵌入模型和向量数据库结合,使模型能够基于自有文档进行问答。**主要分为两类:开箱即用的应用(AnythingLLM、PrivateGPT、Quivr、Khoj)和可二次开发的框架库(LlamaIndex、Haystack、txtai)。RAGFlow在2026年凭借文档级引用精准检索能力取得了显著的份额增长。

ToolLink描述许可证
AnythingLLManythingllm.com最易上手的一体化个人RAG工具,支持工作区MIT
PrivateGPTgithub.com/zylon-ai/private-gpt完全离线的企业级RAG方案Apache 2.0
Quivrgithub.com/QuivrHQ/quivr自托管的个人知识助手Apache 2.0
Khojkhoj.dev个人AI第二大脑,可与Obsidian和Notion同步AGPL 3.0
Difydify.ai支持RAG和智能体的AI工作流构建工具Modified Apache 2.0
Flowiseflowiseai.com可视化LangChain工作流构建器Apache 2.0
Langflowlangflow.org带RAG组件的可视化AI编排工具MIT
LlamaIndexllamaindex.aiRAG框架/Python库——自定义构建的基础MIT
Haystackhaystack.deepset.aideepset出品的搜索与RAG框架Apache 2.0
RAGFlowragflow.io深度文档理解RAG,支持引用提取Apache 2.0
txtaigithub.com/neuml/txtai将向量数据库与LLM合为一体的嵌入式库Apache 2.0

深度指南:AnythingLLM vs PrivateGPT vs Open WebUI

6. 智能体框架与编排工具

智能体框架将单次LLM调用转变为多步骤工作流——计划、行动、观察、循环。LangChain仍是通用默认选择;CrewAI和AutoGen专注于基于角色的多智能体场景;LangGraph在长时运行流程中的状态管理方面表现更优。以下所有八个框架均可与本地Ollama后端无缝配合。

ToolLink描述许可证
LangChainlangchain.com通用LLM应用框架MIT
LlamaIndexllamaindex.ai以RAG为核心的智能体与数据框架MIT
CrewAIcrewai.com基于角色的多智能体工作流MIT
AutoGengithub.com/microsoft/autogenMicrosoft多智能体编排框架CC-BY-4.0 / MIT
Semantic Kernellearn.microsoft.com/semantic-kernelMicrosoft企业级编排SDK,支持C#/Python/JavaMIT
LangGraphlangchain-ai.github.io/langgraph基于状态图的智能体工作流MIT
Letta(原MemGPT)letta.com长期记忆智能体Apache 2.0
Pydantic AIai.pydantic.dev基于Pydantic的类型安全智能体框架MIT

深度指南:使用MCP的本地AI智能体

7. 语音、语音合成与多模态

语音和多模态技术栈将本地LLM的能力从文本扩展至语音输入(STT)、语音输出(TTS)和视觉理解。Whisper.cpp和faster-whisper占据本地STT层;Piper和Coqui共享TTS层,XTTS v2主导语音克隆;LLaVA和Ollama视觉模型覆盖视觉端。基于这一层加上一个小型聊天模型,即可构建完全离线的语音助手。

ToolLink描述许可证
Whisper.cppgithub.com/ggerganov/whisper.cpp本地语音识别,支持CPU或GPU运行MIT
faster-whispergithub.com/SYSTRAN/faster-whisper通过CTranslate2实现的快速Whisper转录MIT
Piper TTSgithub.com/rhasspy/piper轻量级本地文字转语音MIT
Coqui TTScoqui.ai支持多模型的开源语音合成MPL 2.0
XTTS v2docs.coqui.ai/en/latest/models/xtts.html支持多语言的语音克隆CPML
Barkgithub.com/suno-ai/bark支持非语音声音的生成式语音MIT
StyleTTS 2github.com/yl4579/StyleTTS2高质量自然音色TTSMIT
LLaVAllava-vl.github.io本地视觉+语言模型Apache 2.0
Ollama视觉模型ollama.com通过Ollama运行的本地视觉模型(Llama 3.2 Vision、Llava等)Various

深度指南:在手机上构建本地语音助手

8. 移动端与边缘客户端

移动端客户端使用Apple Neural Engine、高通NPU或纯CPU推理直接在手机上运行量化模型。MLC LLM是基础层;消费级应用(PocketPal AI、Private LLM、LLM Farm、Layla)在其上封装了聊天界面。2026年旗舰手机以实用速度(8-15 tokens/秒)运行2-4B模型;7B模型对顶级硬件来说处于可行性边缘。

ToolLink描述许可证
MLC Chatmlc.ai/mlc-llm跨平台移动端LLM运行时Apache 2.0
PocketPal AIgithub.com/a-ghorbani/pocketpal-ai免费的iOS和Android本地LLM客户端MIT
Private LLMprivatellm.app精良的iOS和macOS本地LLM应用付费(闭源)
LLM Farmgithub.com/guinmoon/LLMFarm带模型浏览器的iOS本地LLMMIT
Laylalayla-network.aiAndroid优先的本地LLM应用免费(闭源)
Maidgithub.com/Mobile-Artificial-Intelligence/maid开源Flutter移动端LLM应用MIT
Enchantedenchantedlabs.aiiOS/macOS原生Ollama客户端MIT
Chapperprevolut.ukOllama和LM Studio的原生移动客户端免费
RikkaHubgithub.com/rikkahub/rikkahub开源Android本地AIMIT
AnythingLLM Mobileanythingllm.com远程访问本地AnythingLLM工作区MIT

深度指南:2026年iPhone最佳本地LLM应用

9. 专业化与生产力工具

专业化工具将本地LLM嵌入您已在使用的应用——笔记平台(Obsidian、Logseq、Joplin)、自主任务智能体(AutoGPT、BabyAGI、MetaGPT)以及角色扮演前端(Agnai、RisuAI)。这些不是通用聊天界面,而是面向特定工作流的集成方案,前提是您已有宿主应用和运行时。

ToolLink描述许可证
Smart Connectionsgithub.com/brianpetro/obsidian-smart-connectionsObsidian语义搜索与聊天插件GPL 3.0
Copilot for Obsidiangithub.com/logancyang/obsidian-copilotObsidian本地LLM聊天插件AGPL 3.0
Text Generatorgithub.com/nhaouari/obsidian-textgenerator-pluginObsidian内容生成插件MIT
logseq-copilotgithub.com/logancyang/logseq-copilot支持本地和云端LLM聊天的Logseq插件,与Obsidian Copilot同一作者AGPL 3.0
BMO Chatbotgithub.com/longy2k/obsidian-bmo-chatbot集成本地LLM的Obsidian聊天机器人MIT
Joplin AIjoplinapp.org集成本地AI的Joplin笔记MIT
AutoGPT(本地)github.com/Significant-Gravitas/AutoGPT支持Ollama的自主任务智能体MIT
BabyAGIgithub.com/yoheinakajima/babyagi轻量级自主智能体MIT
MetaGPTgithub.com/geekan/MetaGPT多智能体软件公司模拟框架MIT
Agnaiagnai.chat支持角色卡的角色扮演前端MIT
RisuAIgithub.com/kwaroran/RisuAI移动端友好的角色扮演前端GPL 3.0

深度指南:2026年本地LLM与Obsidian集成

常见实用技术栈

不想逐一阅读九个类别的读者,直接选择最接近的技术栈并复用即可。每行将实际目标与经过验证的工具组合及最低硬件要求配对。

目标技术栈最低硬件要求
日常随意聊天LM Studio单独运行16 GB内存,无需GPU
高级用户最佳平衡Ollama + Open WebUI16 GB内存,可选GPU
文档问答Ollama + AnythingLLM16 GB内存,可选GPU
编程开发Ollama + Continue.dev16 GB内存 + 推荐GPU
角色扮演/创意写作KoboldCpp + SillyTavern16 GB内存,推荐GPU
隐私优先的企业场景Ollama + Open WebUI + PrivateGPT32 GB内存 + 12 GB VRAM
移动/外出使用MLC Chat或PocketPal AIiPhone 13+/Pixel 7+
Apple SiliconOllama(MLX后端)或LM StudioM2/M3/M4/M5,16+ GB统一内存
多用户团队vLLM + Open WebUI32+ GB内存 + 多GPU

本目录如何保持及时更新

中国(数据安全法): 中国2021年《数据安全法》对数据本地化处理和跨境传输有明确规定。本地推理在技术上直接满足合规需求——模型权重和推理计算全部在本地完成,数据不经过任何第三方云服务器。对于需要处理中文企业文本的场景(金融报告、医疗记录、法律合同),在中文理解和指令遵循方面具有针对性优化的模型是本地部署的可选方案,可在满足数据留存要求的同时实现文档理解与知识问答。 亚太地区(数据跨境合规): 亚太地区各经济体正在建立和完善数据本地化框架。本地推理是满足跨境数据传输限制的技术路径——在本地运行模型意味着推理输入和输出不需要离开所在司法管辖区。对于在多个亚太市场运营的企业,在每个合规区域内部署独立的本地LLM实例,是规避数据主权合规风险的实践路径之一。 企业部署(金融、医疗、法律): 在受监管行业,金融机构、医院和律所通常面临严格的数据外发限制。本地LLM部署——尤其是与RAG系统结合后——可在不向外部云服务发送任何敏感数据的前提下实现文档理解、合同分析和知识库问答等用例。本目录每六个月审查一次(下次更新:2026年11月)。纳入标准:项目在过去90天内活跃维护、具备可验证的开源许可证或明确的商业使用声明,并在2026年拥有一定用户基础或填补了某一层的空缺。如需建议纳入某个项目,请向PromptQuorum仓库提交issue或PR,附上项目URL、许可证及上述格式的一句话描述。

参考来源

常见问题

本地LLM运行时与桌面应用有什么区别?

运行时(Ollama、llama.cpp、vLLM)是加载模型权重并提供API的引擎——通常与OpenAI兼容。桌面应用(LM Studio、Jan、GPT4All)是调用底层运行时的聊天界面。部分应用内置运行时(LM Studio内嵌llama.cpp),其他则需要单独安装运行时(Open WebUI调用Ollama)。运行时决定能做什么;应用决定使用是否便捷。

我可以同时使用此列表中的多个工具吗?

可以——大多数技术栈会组合2-4个工具。常见配置:Ollama作为运行时,Open WebUI用于聊天,AnythingLLM用于文档问答,Continue.dev用于编程——这四个工具可在单台机器上同时运行,共享同一个Ollama实例。上方"常见实用技术栈"表格列出了互不冲突的配方。

哪些工具支持完全离线使用且无遥测?

Ollama、llama.cpp、vLLM、Jan、GPT4All、Open WebUI、AnythingLLM、PrivateGPT、Continue.dev、Aider、KoboldCpp、Llamafile、MLX-LM以及本目录中大多数AGPL/MIT许可证应用在模型下载完成后均可完全离线使用。LM Studio和部分闭源工具提供可在设置中禁用的可选分析功能——建议安装后运行一次抓包验证。基于本地后端配置的Web界面(Open WebUI、LibreChat)仅在本地运行。

这些工具中是否有商业许可限制?

部分工具有限制:LM Studio、Msty、Faraday、Layla和Cursor是闭源软件——通常免费使用但不可再分发,商业条款各异。Private LLM需付费。AGPL许可工具(Jan、KoboldCpp、text-generation-webui、SillyTavern、Khoj、Open Interpreter、Copilot for Obsidian)可用于任何用途包括商业用途,但AGPL条款要求在公开托管修改版本时披露源代码。Apache 2.0和MIT项目(占多数)在任何场景下均可使用,无需超出许可证文本范围的归因要求。

哪些工具原生支持Apple Silicon(M系列芯片)?

Ollama、llama.cpp、MLX-LM、LM Studio、Jan、Enchanted、GPT4All、MLC Chat、AnythingLLM以及大多数Electron/Tauri应用均可原生运行于Apple Silicon并使用Metal后端。MLX-LM专为Apple设计,是M系列芯片上大型模型的最快选择。vLLM、TensorRT-LLM和ExLlamaV2以NVIDIA为主,在Apple Silicon上无法运行或性能欠佳——对于Apple用户,使用Metal后端的Ollama是默认选择。

这些工具都支持GGUF模型格式吗?

GGUF是llama.cpp及所有基于它的工具(Ollama、LM Studio、Jan、GPT4All、KoboldCpp、Llamafile)的原生格式。vLLM和TensorRT-LLM使用其自有优化格式(通常为AWQ或FP16)以获得更高吞吐量。ExLlamaV2使用EXL2量化。MLX-LM使用MLX转换后的权重。大多数列出的工具支持GGUF;少数(vLLM、TensorRT-LLM、ExLlamaV2、MLX-LM)需要从原始Hugging Face权重进行一次性格式转换。

对于没有编程经验的用户,哪些工具最合适?

GPT4All安装最简单(一键安装,8 GB内存即可运行)。LM Studio功能最丰富且无需使用终端。Jan是无代码选项中隐私保护最完善的。无需命令行的文档问答首选AnythingLLM。以上四款均列于上方桌面图形界面应用类别中。

我能在服务器上运行这些工具并远程访问吗?

大多数支持服务器部署的工具(Ollama、vLLM、LocalAI、Open WebUI、LibreChat、PrivateGPT、AnythingLLM)提供HTTP API,并可在设置中配置网络接口。标准模式:在家庭服务器或VPS上运行Ollama,在笔记本或手机上运行指向服务器IP的UI界面。将API视为普通Web服务处理——通过反向代理绑定到localhost,或在配有适当认证的私有网络中使用。Open WebUI开箱即支持多用户管理。

哪些工具支持多用户/团队使用场景?

Open WebUI、LibreChat、h2oGPT、AnythingLLM(启用管理功能时)和Dify专为多用户设计,具备基于角色的访问控制和用户独立的对话历史。当并发推理性能至关重要时,vLLM是合适的服务层——它通过批处理多用户请求实现Ollama在并发超过约3个时无法达到的吞吐量。

本目录多久更新一次?

每六个月更新一次——下次计划更新为2026年11月。中期变化(项目失活、新工具取得显著份额、许可证变更)将以补丁形式应用到现有条目。全新类别或层级等待定期更新以保持结构稳定。上方"参考来源"部分列出了更新之间用于监测生态系统动态的社区索引。

← 返回 Power Local LLM

本地LLM软件目录2026:70+工具一览 | PromptQuorum