PromptQuorumPromptQuorum
主页/本地LLM/使用LangGraph和Ollama的本地AI智能体:构建自主决策系统
高级技术

使用LangGraph和Ollama的本地AI智能体:构建自主决策系统

·阅读约13分钟·Hans Kuepper 作者 · PromptQuorum创始人,多模型AI调度工具 · PromptQuorum

AI智能体是基于观察和推理采取行动的系统。LangGraph是使用本地LLM构建智能体工作流的框架。智能体可以浏览文档、使用工具并做出顺序决策。

AI智能体遵循一个循环:观察上下文、对最佳行动进行推理、调用工具,然后重复直到任务完成。LangGraph是一个使用Ollama构建这些智能体工作流的框架。截至2026年4月,本地智能体可以处理自动化、研究和决策支持,无需任何云依赖。

演示文稿: 使用LangGraph和Ollama的本地AI智能体:构建自主决策系统

幻灯片组涵盖:AI智能体如何工作(观察-推理-行动循环)、智能体与链条、具有节点和边的LangGraph架构、智能体可以使用的工具(网络搜索、代码执行、文件操作、数据库查询)、模型大小和推理能力、5种本地智能体模式(研究、代码、规划、对话、工作流自动化)、常见实现错误、何时使用LangGraph与LangChain、硬件要求和延迟期望,以及区域合规要求(GDPR、APPI、PIPL)。下载PDF作为本地AI智能体实现指南。

浏览以下幻灯片或下载PDF以供离线参考。 下载参考卡(PDF)

关键要点

  • AI智能体 = LLM + 工具 + 循环。LLM决定使用哪个工具、执行它、观察结果、决定下一个行动。
  • LangGraph是使用本地或云LLM构建智能体工作流的框架。
  • 主要组件:LLM(Ollama)、工具(网络搜索、代码执行、文件访问)、内存(对话历史)、规划(推理循环)。
  • 本地智能体比云慢(LLM推理需要时间)但私密且可定制。
  • 截至2026年4月,本地智能体最适合从推理中受益而非速度的任务。

AI智能体如何运作

智能体遵循这个循环:(1)观察状态/背景、(2)LLM推理最佳行动、(3)执行行动(工具调用)、(4)观察结果、(5)重复直到完成。

示例:研究智能体被给予任务"比较Llama 3.2与Qwen 2.5的编码任务"。

- 观察:收到任务。

- 推理:需要查找基准、搜索HumanEval分数。

- 行动:使用web_search工具搜索"Llama 3.2 HumanEval基准"。

- 观察:检索到带有分数的文本。

- 行动:搜索"Qwen 2.5 HumanEval"。

- 推理:两个模型都找到。Qwen更快,Llama更通用。

- 最终行动:合成答案并返回。

📍 简单一句话

AI智能体是一个程序,使用LLM来决定接下来调用哪个工具,观察结果,然后再次决定——重复直到任务完成。

💡Tip: 与链的关键区别是智能体使用LLM的输出来"决定"接下来会发生什么,而不是遵循预先确定的路径。

智能体和链有什么区别

智能体在运行时做出动态决策;链遵循预先确定的序列。当任务需要推理或错误恢复时使用智能体——对于固定、可预测的工作流使用链。

方面智能体
决策制定预先确定的序列动态、LLM决定
循环没有循环推理循环(重复直到完成)
错误恢复手动错误处理LLM可以从错误中恢复
用例固定工作流(总结 → 电子邮件)复杂推理(研究、自动化)
复杂性简单、可预测复杂、不可预测的行为

📌Note: 智能体比链慢且更不可预测,因为LLM必须在每个步骤做出决定。如果速度至关重要且你的工作流是预先知道的,使用链。

LangGraph架构如何运作

LangGraph将智能体定义为具有节点(状态)和边(转换)的有向非环图(DAG)。

- 状态:智能体持有的信息(背景、观察、决策)。

- 节点:处理状态的函数(LLM推理、工具执行)。

- 边:节点之间的转换(基于LLM输出的条件)。

- 工具:LLM可以调用的函数(网络搜索、代码执行、数据库查询)。

💬 简单来说

LangGraph像一个流程图,LLM在每个决策框处决定跟随哪个箭头——当出现问题时可以循环回去。

智能体可以使用哪些工具

智能体的能力完全由其工具定义——它可以调用的与世界互动的函数。限制在每个智能体5~10个工具以避免决策麻痹。

  • 网络搜索:在互联网上搜索信息(duckduckgo、Google、Bing)。
  • 代码执行:运行Python代码并返回结果。
  • 文件操作:读/写文件、列出目录。
  • 数据库查询:查询本地或远程数据库。
  • 文档检索:在RAG向量数据库中搜索文档。
  • 计算器:执行算术和符号数学。
  • 电子邮件:发送消息(谨慎、验证权限)。
  • API调用:与外部服务交互。

⚠️Warning: 工具太多会混淆LLM——每步延迟增加,智能体更频繁地选择错误的工具。从3~5个核心工具开始。

🛠️Practice: 在少于50个字内写每个工具描述,并说明确切何时使用。清晰的描述帮助LLM选择正确的工具。

智能体如何推理和规划

智能体推理取决于LLM模型大小和提示质量。

- 小型模型(3-7B):推理受限。最适合确定性任务(工具查找、分类)。

- 中型模型(13-30B):不错的推理。可以处理2-3步推理链。

- 大型模型(70B+):强大推理。可以用多步规划解决复杂问题。

提示技术:Chain-of-Thought(CoT)帮助智能体在决策前思考步骤。在测试推理性能之前确保Ollama已安装并运行

❌ 坏提示

你是一个有用的AI助手。用户会要求你进行研究。尽力而为。

✅ 好提示

你是一个研究智能体。对于每个任务:(1)分解为2~3个子问题、(2)使用web_search工具搜索每个、(3)合成发现、(4)引用来源。在调用工具前总是解释你的推理。硬性限制:最多10个推理步骤。
python
# 示例:智能体的CoT推理提示
system_prompt = """
你是一个研究智能体。将复杂任务分解为步骤:
1. 确定你需要哪些信息
2. 调用适当的工具来收集信息
3. 分析结果并确定下一步
4. 用来源返回最终答案
在调用工具之前总是逐步推理。
"""

🔍Insight: Chain-of-Thought提示对智能体很好用——明确的逐步推理帮助LLM做出更好的工具选择。

⚠️Warning: 通用"有用助手"提示在自主智能体中失败。你需要明确的步骤限制、输出格式规则和工具推理指示。

哪些本地智能体模式效果最好

五种模式涵盖大多数本地智能体用例。根据主要需求选择——推理、代码执行、规划、对话或自动化。

  • 研究智能体:搜索文档和网络、合成发现。
  • 代码智能体:编写和执行代码来解决问题。
  • 规划智能体:将复杂任务分解为子任务、委派给其他智能体。
  • 对话智能体:维护内存、回答问题、从反馈中学习。
  • 工作流自动化:读取电子邮件、执行任务、发送确认。

本地AI智能体实现中最常见的错误是什么

大多数本地智能体失败追溯到五个根本原因:工具过载、工具描述模糊、无限循环、缺少错误处理和模型大小不匹配。

  • 工具太多:智能体因选项太多而混乱。限制在5-10个相关工具。
  • 工具描述弱:如果描述模糊,LLM不会正确使用工具。写清晰、具体的描述。
  • 无限循环:智能体可能卡在推理循环中。添加最大迭代限制(例如10步)。
  • 没有错误处理:工具调用可能失败。让智能体优雅地处理失败。
  • 使用小型模型:3B模型不能很好地推理复杂智能体。自主智能体使用13B+。

⚠️Warning: 最大的错误是在没有硬迭代限制的情况下部署智能体。当LLM卡住时智能体可能永远循环。总是将max_iterations设置为10~20。

关于本地AI智能体的常见问题

🛠️Practice: 首先用最大迭代计数(例如5步)测试智能体以在生产部署前发现错误,可能浪费资源。

云智能体和本地智能体快多少

云智能体:每个推理步骤约1秒。本地智能体:根据模型大小和硬件每步约3~5秒。本地推理增加延迟但消除API成本并在自己的硬件上保留所有数据。

本地智能体能访问互联网吗

可以,如果你提供web_search工具。智能体以与任何其他函数相同的方式调用该工具。热门选项包括DuckDuckGo搜索API和结构化结果的SerpAPI。

我如何确保智能体不会破坏东西(例如删除文件)

在具有严格文件系统和网络权限的Docker容器内运行工具。用输入和输出记录每个工具调用以进行审计。在任何破坏性行动(文件删除、电子邮件发送)之前添加确认步骤。

我可以并行运行多个智能体吗

可以。使用FastAPI等异步框架来处理并发智能体请求。每个请求获得自己的对话状态。注意,每个并行智能体需要自己的LLM推理线程,所以VRAM限制了你可以同时运行多少。

运行本地AI智能体需要最低硬件要求

建议使用13B+参数模型进行可靠的自主推理。至少需要16GB RAM,量子化13B模型的GPU最好8GB+ VRAM。在仅CPU硬件上,每个推理步骤预计5~15秒。

何时应该使用LangGraph而不是普通LangChain

当工作流需要循环、条件分支或从工具失败恢复时使用LangGraph。普通LangChain适合线性管道(步骤A → B → C)不带决策点。如果智能体需要在失败步骤后重试或再次推理,LangGraph的图结构妥善处理。

LangGraph和LangChain一样吗

不。LangChain是构建链和管道的通用LLM工具包。LangGraph是专为智能体和有状态工作流而在LangChain基础上构建的分离框架——它添加可靠推理循环所需的图结构(节点、边、状态)。

本地智能体应该有多少工具

将智能体限制在5~10个工具。选项太多时,LLM难以选择正确的工具,每步延迟增加。从3~5个核心工具开始,只在遇到具体功能缺口时扩展。在50字以内写每个工具描述,说明确切使用时机。

快速事实

  • 本地智能体延迟:每个推理步骤约3~5秒(对比云智能体约1秒)
  • 模型最低值:13B+参数用于可靠的自主多步智能体
  • 工具限制:每个智能体5~10个工具——超过10个决策质量下降
  • 最大迭代:设置10~20步的硬制限以防止无限循环
  • 硬件:量子化7B模型用8GB+ VRAM ; 13B智能体用16GB+
  • CPU上的推理延迟:13B时每步5~15秒(Ollama默认)

区域背景和部署规制

中国(数据安全法):2021年《数据安全法》和个人信息保护法(PIPL)要求特定数据类别保留在中国境内。使用Qwen2.5或其他自托管模型的本地智能体满足这些驻留要求,云推理则不然。对于金融机构、医疗提供商和法律事务所处理敏感客户数据的企业部署,本地推理保证了PIPL和行业安全标准合规。

亚太地区(数据跨界):ASEAN地区个国家(新加坡个人数据保护法、泰国个人数据保护法、越南数据安全法)要求个人数据跨境转移最小化。本地智能体通过在ASEAN区域内的服务器运行满足这些要求。多国ASEAN个人信息保护框架(APIAN)优先支持本地或区域性部署,以实现合规且减少跨界API调用。

企业部署(金融、医疗、法律):银行、医院和律师事务所处理受管制数据(支付卡信息、患者记录、法律通讯)的部署可以使用本地智能体来维持完全的数据驻留和审计控制。这消除了由于第三方API依赖而产生的监管负担,并为受保护信息提供端到端加密和本地日志记录。

来源

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

使用PromptQuorum将您的本地LLM与25+个云模型同时进行比较。

加入PromptQuorum等待列表 →

← 返回本地LLM

用LangGraph + Ollama构建本地AI智能体(2026) | PromptQuorum