关键要点
- 九层架构,87个项目,一份全景图。运行时、桌面应用、Web界面、编程助手、RAG系统、智能体框架、语音/多模态、移动端客户端以及专业化生产力插件——2026年几乎所有主流项目都能归入其中某一层。
- 优先选择运行时。Ollama是约95%用户的默认选择;llama.cpp是大多数其他工具底层的核心引擎;vLLM适合在真实GPU上为多用户提供并发推理服务。
- 运行时以上的大多数层都是可选的。聊天只需一个桌面应用或Web界面即可。仅当需要IDE集成时才添加编程助手;仅当需要基于自有文档问答时才添加RAG系统;仅当单次调用不够用时才添加智能体框架。
- 商业使用时许可证至关重要。MIT和Apache 2.0许可证主导生态系统。少数Web界面(text-generation-webui、KoboldCpp、Jan、SillyTavern)采用AGPL——个人使用无碍,商业部署前需仔细评估。下方"许可证"列已明确列出每个项目的许可证。
- 多工具组合技术栈是常态。Ollama + Open WebUI + AnythingLLM + Continue.dev在单台机器上即可同时覆盖聊天、RAG和编程需求,互不冲突。下方"常见实用技术栈"表格列出了2026年经验证、实际可用的配方。
1. 本地LLM运行时与推理引擎
运行时是将模型权重加载到内存、将提示词转换为token的核心引擎。它是本地LLM技术栈的第一个决策,也制约着上层所有组件——每个桌面应用、Web界面和编程助手最终都会调用某个运行时。Ollama在2026年主导用户侧份额,原因在于它提供OpenAI兼容API并支持一条命令安装;llama.cpp是大多数其他工具底层的C++引擎;vLLM是在真实GPU上为多用户提供并发服务的首选。
| Tool | Link | 描述 | 许可证 |
|---|---|---|---|
| Ollama | ollama.com | 整体最易上手——一条命令安装,OpenAI兼容API,庞大的模型库 | MIT |
| llama.cpp | github.com/ggml-org/llama.cpp | 大多数其他工具底层的基础C++引擎,可在任何平台运行,包括Apple Silicon | MIT |
| vLLM | github.com/vllm-project/vllm | 多用户GPU部署的高吞吐量推理服务 | Apache 2.0 |
| LocalAI | localai.io | 支持多后端的OpenAI API直接替代方案 | MIT |
| TensorRT-LLM | github.com/NVIDIA/TensorRT-LLM | NVIDIA针对企业级GPU优化的推理方案 | Apache 2.0 |
| MLC LLM | mlc.ai/mlc-llm | 移动端与边缘设备部署运行时 | Apache 2.0 |
| SGLang | github.com/sgl-project/sglang | 面向智能体流水线的结构化推理服务 | Apache 2.0 |
| ExLlamaV2 | github.com/turboderp-org/exllamav2 | 针对RTX GPU优化的快速量化推理 | MIT |
| KoboldCpp | github.com/LostRuins/koboldcpp | 内置UI的轻量级llama.cpp封装 | AGPL 3.0 |
| Llamafile | github.com/Mozilla-Ocho/llamafile | Mozilla出品的单文件可移植LLM运行方案 | Apache 2.0 |
| MLX-LM | github.com/ml-explore/mlx-examples | Apple研究院出品的Apple Silicon原生运行时 | MIT |
2. 桌面图形界面应用
桌面应用将运行时封装成聊天界面和模型浏览器。它们是大多数非技术用户的起点,因为无需命令行操作——下载、点击、开始聊天。LM Studio、Jan和GPT4All在2026年占据了大部分用户群体;AnythingLLM兼具桌面应用和RAG层的双重功能;Open Interpreter是个特例,它允许本地模型直接操控用户的电脑并执行代码。
| Tool | Link | 描述 | 许可证 |
|---|---|---|---|
| LM Studio | lmstudio.ai | 最精良的GUI,内置HuggingFace模型浏览器,支持服务器模式 | 免费(闭源) |
| Jan | jan.ai | 注重隐私的离线ChatGPT替代品,完全开源 | AGPL 3.0 |
| GPT4All | nomic.ai/gpt4all | 面向初学者,纯CPU运行支持优秀 | MIT |
| AnythingLLM | anythingllm.com | 内置向量存储的RAG与文档问答工具 | MIT |
| Msty | msty.app | 简洁的消费级UX,支持多提供商 | 免费(闭源) |
| Cherry Studio | cherry-ai.com | 支持多提供商、高度可定制的桌面AI工具 | Apache 2.0 |
| Faraday | faraday.dev | 角色聊天与角色扮演桌面客户端 | 免费(闭源) |
| Enchanted | enchantedlabs.ai | macOS/iOS原生的极简Ollama客户端 | MIT |
| h2oGPT | github.com/h2oai/h2ogpt | 企业功能丰富的桌面与服务器方案 | Apache 2.0 |
| Open Interpreter | github.com/OpenInterpreter/open-interpreter | 允许本地LLM操控电脑并执行代码 | AGPL 3.0 |
3. Web界面与浏览器前端
Web界面是自托管的ChatGPT替代方案——相同的对话界面,但指向运行在本地机器或局域网上的运行时。当需要多设备访问(笔记本、手机、平板同时连接一台服务器)或团队共用时,它们是自然之选。Open WebUI在2026年主导自托管市场,LibreChat是团队功能替代方案,SillyTavern专注角色扮演场景。
| Tool | Link | 描述 | 许可证 |
|---|---|---|---|
| Open WebUI | openwebui.com | 最受欢迎的自托管ChatGPT类界面,内置RAG | BSD 3-Clause |
| LibreChat | librechat.ai | 具备团队功能的多模型ChatGPT替代方案 | MIT |
| text-generation-webui | github.com/oobabooga/text-generation-webui | 面向高级用户的UI,拥有丰富的插件生态 | AGPL 3.0 |
| SillyTavern | github.com/SillyTavern/SillyTavern | 支持Lorebook的角色扮演聊天界面 | AGPL 3.0 |
| LobeChat | lobehub.com | 带插件市场的现代精良UI | MIT |
| Big-AGI | github.com/enricoros/big-AGI | 支持Persona的高级多提供商前端 | MIT |
| NextChat | github.com/ChatGPTNextWeb/NextChat | 轻量级Web聊天,部署简单 | MIT |
| Page Assist | github.com/n4ze3m/page-assist | Chrome和Firefox的浏览器侧边栏AI | MIT |
| Chatbox | chatboxai.app | 跨平台桌面与Web客户端 | GPLv3 |
4. 编程助手与IDE集成
编程助手通过OpenAI兼容API将本地LLM接入编辑器或终端。选择主要取决于工作流偏好:编辑器内自动补全(Continue.dev)、自主智能体编辑(Cline、OpenHands)或终端内git原生差异编辑(Aider)。三种模式均可与任何支持OpenAI Chat Completions协议的运行时配合使用——Ollama是2026年最常见的后端。
| Tool | Link | 描述 | 许可证 |
|---|---|---|---|
| Continue.dev | continue.dev | 支持本地模型的VS Code和JetBrains自动补全与聊天 | Apache 2.0 |
| Aider | aider.chat | 支持多文件编辑的终端结对编程工具 | Apache 2.0 |
| Cline | cline.bot | VS Code的自主编程智能体 | Apache 2.0 |
| Tabby | tabby.tabbyml.com | 自托管的GitHub Copilot替代方案 | Apache 2.0 |
| CodeGPT | codegpt.co | 支持多编辑器的IDE集成工具 | MIT |
| OpenHands | github.com/All-Hands-AI/OpenHands | AI软件工程智能体(原OpenDevin) | MIT |
| Cursor(本地模式) | cursor.com | 支持本地模型的AI优先代码编辑器 | 免费(闭源) |
| Twinny | github.com/twinnydotdev/twinny | VS Code的免费Copilot替代插件 | MIT |
5. RAG与文档问答系统
RAG(检索增强生成)系统将本地LLM与嵌入模型和向量数据库结合,使模型能够基于自有文档进行问答。**主要分为两类:开箱即用的应用(AnythingLLM、PrivateGPT、Quivr、Khoj)和可二次开发的框架库(LlamaIndex、Haystack、txtai)。RAGFlow在2026年凭借文档级引用精准检索能力取得了显著的份额增长。
| Tool | Link | 描述 | 许可证 |
|---|---|---|---|
| AnythingLLM | anythingllm.com | 最易上手的一体化个人RAG工具,支持工作区 | MIT |
| PrivateGPT | github.com/zylon-ai/private-gpt | 完全离线的企业级RAG方案 | Apache 2.0 |
| Quivr | github.com/QuivrHQ/quivr | 自托管的个人知识助手 | Apache 2.0 |
| Khoj | khoj.dev | 个人AI第二大脑,可与Obsidian和Notion同步 | AGPL 3.0 |
| Dify | dify.ai | 支持RAG和智能体的AI工作流构建工具 | Modified Apache 2.0 |
| Flowise | flowiseai.com | 可视化LangChain工作流构建器 | Apache 2.0 |
| Langflow | langflow.org | 带RAG组件的可视化AI编排工具 | MIT |
| LlamaIndex | llamaindex.ai | RAG框架/Python库——自定义构建的基础 | MIT |
| Haystack | haystack.deepset.ai | deepset出品的搜索与RAG框架 | Apache 2.0 |
| RAGFlow | ragflow.io | 深度文档理解RAG,支持引用提取 | Apache 2.0 |
| txtai | github.com/neuml/txtai | 将向量数据库与LLM合为一体的嵌入式库 | Apache 2.0 |
6. 智能体框架与编排工具
智能体框架将单次LLM调用转变为多步骤工作流——计划、行动、观察、循环。LangChain仍是通用默认选择;CrewAI和AutoGen专注于基于角色的多智能体场景;LangGraph在长时运行流程中的状态管理方面表现更优。以下所有八个框架均可与本地Ollama后端无缝配合。
| Tool | Link | 描述 | 许可证 |
|---|---|---|---|
| LangChain | langchain.com | 通用LLM应用框架 | MIT |
| LlamaIndex | llamaindex.ai | 以RAG为核心的智能体与数据框架 | MIT |
| CrewAI | crewai.com | 基于角色的多智能体工作流 | MIT |
| AutoGen | github.com/microsoft/autogen | Microsoft多智能体编排框架 | CC-BY-4.0 / MIT |
| Semantic Kernel | learn.microsoft.com/semantic-kernel | Microsoft企业级编排SDK,支持C#/Python/Java | MIT |
| LangGraph | langchain-ai.github.io/langgraph | 基于状态图的智能体工作流 | MIT |
| Letta(原MemGPT) | letta.com | 长期记忆智能体 | Apache 2.0 |
| Pydantic AI | ai.pydantic.dev | 基于Pydantic的类型安全智能体框架 | MIT |
深度指南:使用MCP的本地AI智能体
7. 语音、语音合成与多模态
语音和多模态技术栈将本地LLM的能力从文本扩展至语音输入(STT)、语音输出(TTS)和视觉理解。Whisper.cpp和faster-whisper占据本地STT层;Piper和Coqui共享TTS层,XTTS v2主导语音克隆;LLaVA和Ollama视觉模型覆盖视觉端。基于这一层加上一个小型聊天模型,即可构建完全离线的语音助手。
| Tool | Link | 描述 | 许可证 |
|---|---|---|---|
| Whisper.cpp | github.com/ggerganov/whisper.cpp | 本地语音识别,支持CPU或GPU运行 | MIT |
| faster-whisper | github.com/SYSTRAN/faster-whisper | 通过CTranslate2实现的快速Whisper转录 | MIT |
| Piper TTS | github.com/rhasspy/piper | 轻量级本地文字转语音 | MIT |
| Coqui TTS | coqui.ai | 支持多模型的开源语音合成 | MPL 2.0 |
| XTTS v2 | docs.coqui.ai/en/latest/models/xtts.html | 支持多语言的语音克隆 | CPML |
| Bark | github.com/suno-ai/bark | 支持非语音声音的生成式语音 | MIT |
| StyleTTS 2 | github.com/yl4579/StyleTTS2 | 高质量自然音色TTS | MIT |
| LLaVA | llava-vl.github.io | 本地视觉+语言模型 | Apache 2.0 |
| Ollama视觉模型 | ollama.com | 通过Ollama运行的本地视觉模型(Llama 3.2 Vision、Llava等) | Various |
深度指南:在手机上构建本地语音助手
8. 移动端与边缘客户端
移动端客户端使用Apple Neural Engine、高通NPU或纯CPU推理直接在手机上运行量化模型。MLC LLM是基础层;消费级应用(PocketPal AI、Private LLM、LLM Farm、Layla)在其上封装了聊天界面。2026年旗舰手机以实用速度(8-15 tokens/秒)运行2-4B模型;7B模型对顶级硬件来说处于可行性边缘。
| Tool | Link | 描述 | 许可证 |
|---|---|---|---|
| MLC Chat | mlc.ai/mlc-llm | 跨平台移动端LLM运行时 | Apache 2.0 |
| PocketPal AI | github.com/a-ghorbani/pocketpal-ai | 免费的iOS和Android本地LLM客户端 | MIT |
| Private LLM | privatellm.app | 精良的iOS和macOS本地LLM应用 | 付费(闭源) |
| LLM Farm | github.com/guinmoon/LLMFarm | 带模型浏览器的iOS本地LLM | MIT |
| Layla | layla-network.ai | Android优先的本地LLM应用 | 免费(闭源) |
| Maid | github.com/Mobile-Artificial-Intelligence/maid | 开源Flutter移动端LLM应用 | MIT |
| Enchanted | enchantedlabs.ai | iOS/macOS原生Ollama客户端 | MIT |
| Chapper | prevolut.uk | Ollama和LM Studio的原生移动客户端 | 免费 |
| RikkaHub | github.com/rikkahub/rikkahub | 开源Android本地AI | MIT |
| AnythingLLM Mobile | anythingllm.com | 远程访问本地AnythingLLM工作区 | MIT |
深度指南:2026年iPhone最佳本地LLM应用
9. 专业化与生产力工具
专业化工具将本地LLM嵌入您已在使用的应用——笔记平台(Obsidian、Logseq、Joplin)、自主任务智能体(AutoGPT、BabyAGI、MetaGPT)以及角色扮演前端(Agnai、RisuAI)。这些不是通用聊天界面,而是面向特定工作流的集成方案,前提是您已有宿主应用和运行时。
| Tool | Link | 描述 | 许可证 |
|---|---|---|---|
| Smart Connections | github.com/brianpetro/obsidian-smart-connections | Obsidian语义搜索与聊天插件 | GPL 3.0 |
| Copilot for Obsidian | github.com/logancyang/obsidian-copilot | Obsidian本地LLM聊天插件 | AGPL 3.0 |
| Text Generator | github.com/nhaouari/obsidian-textgenerator-plugin | Obsidian内容生成插件 | MIT |
| logseq-copilot | github.com/logancyang/logseq-copilot | 支持本地和云端LLM聊天的Logseq插件,与Obsidian Copilot同一作者 | AGPL 3.0 |
| BMO Chatbot | github.com/longy2k/obsidian-bmo-chatbot | 集成本地LLM的Obsidian聊天机器人 | MIT |
| Joplin AI | joplinapp.org | 集成本地AI的Joplin笔记 | MIT |
| AutoGPT(本地) | github.com/Significant-Gravitas/AutoGPT | 支持Ollama的自主任务智能体 | MIT |
| BabyAGI | github.com/yoheinakajima/babyagi | 轻量级自主智能体 | MIT |
| MetaGPT | github.com/geekan/MetaGPT | 多智能体软件公司模拟框架 | MIT |
| Agnai | agnai.chat | 支持角色卡的角色扮演前端 | MIT |
| RisuAI | github.com/kwaroran/RisuAI | 移动端友好的角色扮演前端 | GPL 3.0 |
常见实用技术栈
不想逐一阅读九个类别的读者,直接选择最接近的技术栈并复用即可。每行将实际目标与经过验证的工具组合及最低硬件要求配对。
| 目标 | 技术栈 | 最低硬件要求 |
|---|---|---|
| 日常随意聊天 | LM Studio单独运行 | 16 GB内存,无需GPU |
| 高级用户最佳平衡 | Ollama + Open WebUI | 16 GB内存,可选GPU |
| 文档问答 | Ollama + AnythingLLM | 16 GB内存,可选GPU |
| 编程开发 | Ollama + Continue.dev | 16 GB内存 + 推荐GPU |
| 角色扮演/创意写作 | KoboldCpp + SillyTavern | 16 GB内存,推荐GPU |
| 隐私优先的企业场景 | Ollama + Open WebUI + PrivateGPT | 32 GB内存 + 12 GB VRAM |
| 移动/外出使用 | MLC Chat或PocketPal AI | iPhone 13+/Pixel 7+ |
| Apple Silicon | Ollama(MLX后端)或LM Studio | M2/M3/M4/M5,16+ GB统一内存 |
| 多用户团队 | vLLM + Open WebUI | 32+ GB内存 + 多GPU |
本目录如何保持及时更新
中国(数据安全法): 中国2021年《数据安全法》对数据本地化处理和跨境传输有明确规定。本地推理在技术上直接满足合规需求——模型权重和推理计算全部在本地完成,数据不经过任何第三方云服务器。对于需要处理中文企业文本的场景(金融报告、医疗记录、法律合同),在中文理解和指令遵循方面具有针对性优化的模型是本地部署的可选方案,可在满足数据留存要求的同时实现文档理解与知识问答。 亚太地区(数据跨境合规): 亚太地区各经济体正在建立和完善数据本地化框架。本地推理是满足跨境数据传输限制的技术路径——在本地运行模型意味着推理输入和输出不需要离开所在司法管辖区。对于在多个亚太市场运营的企业,在每个合规区域内部署独立的本地LLM实例,是规避数据主权合规风险的实践路径之一。 企业部署(金融、医疗、法律): 在受监管行业,金融机构、医院和律所通常面临严格的数据外发限制。本地LLM部署——尤其是与RAG系统结合后——可在不向外部云服务发送任何敏感数据的前提下实现文档理解、合同分析和知识库问答等用例。本目录每六个月审查一次(下次更新:2026年11月)。纳入标准:项目在过去90天内活跃维护、具备可验证的开源许可证或明确的商业使用声明,并在2026年拥有一定用户基础或填补了某一层的空缺。如需建议纳入某个项目,请向PromptQuorum仓库提交issue或PR,附上项目URL、许可证及上述格式的一句话描述。
参考来源
- ggml-org/llama.cpp GitHub — 运行时架构和支持模型的主要信息来源。
- Ollama Library — 官方模型目录和运行时文档。
- LM Studio Documentation — 主流桌面GUI的功能参考。
- Open WebUI Documentation — 主流自托管Web界面的功能参考。
- Hugging Face Hub — 上述所有运行时消费的模型权重的主要下载来源。
- awesome-local-llm GitHub list — 用于验证项目纳入范围的社区维护清单。
常见问题
本地LLM运行时与桌面应用有什么区别?
运行时(Ollama、llama.cpp、vLLM)是加载模型权重并提供API的引擎——通常与OpenAI兼容。桌面应用(LM Studio、Jan、GPT4All)是调用底层运行时的聊天界面。部分应用内置运行时(LM Studio内嵌llama.cpp),其他则需要单独安装运行时(Open WebUI调用Ollama)。运行时决定能做什么;应用决定使用是否便捷。
我可以同时使用此列表中的多个工具吗?
可以——大多数技术栈会组合2-4个工具。常见配置:Ollama作为运行时,Open WebUI用于聊天,AnythingLLM用于文档问答,Continue.dev用于编程——这四个工具可在单台机器上同时运行,共享同一个Ollama实例。上方"常见实用技术栈"表格列出了互不冲突的配方。
哪些工具支持完全离线使用且无遥测?
Ollama、llama.cpp、vLLM、Jan、GPT4All、Open WebUI、AnythingLLM、PrivateGPT、Continue.dev、Aider、KoboldCpp、Llamafile、MLX-LM以及本目录中大多数AGPL/MIT许可证应用在模型下载完成后均可完全离线使用。LM Studio和部分闭源工具提供可在设置中禁用的可选分析功能——建议安装后运行一次抓包验证。基于本地后端配置的Web界面(Open WebUI、LibreChat)仅在本地运行。
这些工具中是否有商业许可限制?
部分工具有限制:LM Studio、Msty、Faraday、Layla和Cursor是闭源软件——通常免费使用但不可再分发,商业条款各异。Private LLM需付费。AGPL许可工具(Jan、KoboldCpp、text-generation-webui、SillyTavern、Khoj、Open Interpreter、Copilot for Obsidian)可用于任何用途包括商业用途,但AGPL条款要求在公开托管修改版本时披露源代码。Apache 2.0和MIT项目(占多数)在任何场景下均可使用,无需超出许可证文本范围的归因要求。
哪些工具原生支持Apple Silicon(M系列芯片)?
Ollama、llama.cpp、MLX-LM、LM Studio、Jan、Enchanted、GPT4All、MLC Chat、AnythingLLM以及大多数Electron/Tauri应用均可原生运行于Apple Silicon并使用Metal后端。MLX-LM专为Apple设计,是M系列芯片上大型模型的最快选择。vLLM、TensorRT-LLM和ExLlamaV2以NVIDIA为主,在Apple Silicon上无法运行或性能欠佳——对于Apple用户,使用Metal后端的Ollama是默认选择。
这些工具都支持GGUF模型格式吗?
GGUF是llama.cpp及所有基于它的工具(Ollama、LM Studio、Jan、GPT4All、KoboldCpp、Llamafile)的原生格式。vLLM和TensorRT-LLM使用其自有优化格式(通常为AWQ或FP16)以获得更高吞吐量。ExLlamaV2使用EXL2量化。MLX-LM使用MLX转换后的权重。大多数列出的工具支持GGUF;少数(vLLM、TensorRT-LLM、ExLlamaV2、MLX-LM)需要从原始Hugging Face权重进行一次性格式转换。
对于没有编程经验的用户,哪些工具最合适?
GPT4All安装最简单(一键安装,8 GB内存即可运行)。LM Studio功能最丰富且无需使用终端。Jan是无代码选项中隐私保护最完善的。无需命令行的文档问答首选AnythingLLM。以上四款均列于上方桌面图形界面应用类别中。
我能在服务器上运行这些工具并远程访问吗?
大多数支持服务器部署的工具(Ollama、vLLM、LocalAI、Open WebUI、LibreChat、PrivateGPT、AnythingLLM)提供HTTP API,并可在设置中配置网络接口。标准模式:在家庭服务器或VPS上运行Ollama,在笔记本或手机上运行指向服务器IP的UI界面。将API视为普通Web服务处理——通过反向代理绑定到localhost,或在配有适当认证的私有网络中使用。Open WebUI开箱即支持多用户管理。
哪些工具支持多用户/团队使用场景?
Open WebUI、LibreChat、h2oGPT、AnythingLLM(启用管理功能时)和Dify专为多用户设计,具备基于角色的访问控制和用户独立的对话历史。当并发推理性能至关重要时,vLLM是合适的服务层——它通过批处理多用户请求实现Ollama在并发超过约3个时无法达到的吞吐量。
本目录多久更新一次?
每六个月更新一次——下次计划更新为2026年11月。中期变化(项目失活、新工具取得显著份额、许可证变更)将以补丁形式应用到现有条目。全新类别或层级等待定期更新以保持结构稳定。上方"参考来源"部分列出了更新之间用于监测生态系统动态的社区索引。