AI智能体遵循一个循环：观察上下文、对最佳行动进行推理、调用工具，然后重复直到任务完成。LangGraph是一个使用Ollama构建这些智能体工作流的框架。截至2026年4月，本地智能体可以处理自动化、研究和决策支持，无需任何云依赖。

关键要点

AI智能体 = LLM + 工具 + 循环。LLM决定使用哪个工具、执行它、观察结果、决定下一个行动。
LangGraph是使用本地或云LLM构建智能体工作流的框架。
主要组件：LLM（Ollama）、工具（网络搜索、代码执行、文件访问）、内存（对话历史）、规划（推理循环）。
本地智能体比云慢（LLM推理需要时间）但私密且可定制。
截至2026年4月，本地智能体最适合从推理中受益而非速度的任务。

AI智能体如何运作

智能体遵循这个循环：（1）观察状态/背景、（2）LLM推理最佳行动、（3）执行行动（工具调用）、（4）观察结果、（5）重复直到完成。

示例：研究智能体被给予任务"比较Llama 3.2与Qwen 2.5的编码任务"。

- 观察：收到任务。

- 推理：需要查找基准、搜索HumanEval分数。

- 行动：使用web_search工具搜索"Llama 3.2 HumanEval基准"。

- 观察：检索到带有分数的文本。

- 行动：搜索"Qwen 2.5 HumanEval"。

- 推理：两个模型都找到。Qwen更快，Llama更通用。

- 最终行动：合成答案并返回。

📍 简单一句话

AI智能体是一个程序，使用LLM来决定接下来调用哪个工具，观察结果，然后再次决定——重复直到任务完成。

💡Tip: 与链的关键区别是智能体使用LLM的输出来"决定"接下来会发生什么，而不是遵循预先确定的路径。

智能体和链有什么区别

智能体在运行时做出动态决策；链遵循预先确定的序列。当任务需要推理或错误恢复时使用智能体——对于固定、可预测的工作流使用链。

方面	链	智能体
决策制定	预先确定的序列	动态、LLM决定
循环	没有循环	推理循环（重复直到完成）
错误恢复	手动错误处理	LLM可以从错误中恢复
用例	固定工作流（总结 → 电子邮件）	复杂推理（研究、自动化）
复杂性	简单、可预测	复杂、不可预测的行为

📌Note: 智能体比链慢且更不可预测，因为LLM必须在每个步骤做出决定。如果速度至关重要且你的工作流是预先知道的，使用链。

LangGraph架构如何运作

LangGraph将智能体定义为具有节点（状态）和边（转换）的有向非环图（DAG）。

- 状态：智能体持有的信息（背景、观察、决策）。

- 节点：处理状态的函数（LLM推理、工具执行）。

- 边：节点之间的转换（基于LLM输出的条件）。

- 工具：LLM可以调用的函数（网络搜索、代码执行、数据库查询）。

💬 简单来说

LangGraph像一个流程图，LLM在每个决策框处决定跟随哪个箭头——当出现问题时可以循环回去。

智能体可以使用哪些工具

智能体的能力完全由其工具定义——它可以调用的与世界互动的函数。限制在每个智能体5～10个工具以避免决策麻痹。

网络搜索：在互联网上搜索信息（duckduckgo、Google、Bing）。
代码执行：运行Python代码并返回结果。
文件操作：读/写文件、列出目录。
数据库查询：查询本地或远程数据库。
文档检索：在RAG向量数据库中搜索文档。
计算器：执行算术和符号数学。
电子邮件：发送消息（谨慎、验证权限）。
API调用：与外部服务交互。

⚠️Warning: 工具太多会混淆LLM——每步延迟增加，智能体更频繁地选择错误的工具。从3～5个核心工具开始。

🛠️Practice: 在少于50个字内写每个工具描述，并说明确切何时使用。清晰的描述帮助LLM选择正确的工具。

智能体如何推理和规划

智能体推理取决于LLM模型大小和提示质量。

- 小型模型（3-7B）：推理受限。最适合确定性任务（工具查找、分类）。

- 中型模型（13-30B）：不错的推理。可以处理2-3步推理链。

- 大型模型（70B+）：强大推理。可以用多步规划解决复杂问题。

提示技术：Chain-of-Thought（CoT）帮助智能体在决策前思考步骤。在测试推理性能之前确保Ollama已安装并运行。

❌ 坏提示

“你是一个有用的AI助手。用户会要求你进行研究。尽力而为。”

✅ 好提示

“你是一个研究智能体。对于每个任务：（1）分解为2～3个子问题、（2）使用web_search工具搜索每个、（3）合成发现、（4）引用来源。在调用工具前总是解释你的推理。硬性限制：最多10个推理步骤。”

python

# 示例：智能体的CoT推理提示
system_prompt = """
你是一个研究智能体。将复杂任务分解为步骤：
1. 确定你需要哪些信息
2. 调用适当的工具来收集信息
3. 分析结果并确定下一步
4. 用来源返回最终答案
在调用工具之前总是逐步推理。
"""

🔍Insight: Chain-of-Thought提示对智能体很好用——明确的逐步推理帮助LLM做出更好的工具选择。

⚠️Warning: 通用"有用助手"提示在自主智能体中失败。你需要明确的步骤限制、输出格式规则和工具推理指示。

哪些本地智能体模式效果最好

五种模式涵盖大多数本地智能体用例。根据主要需求选择——推理、代码执行、规划、对话或自动化。

研究智能体：搜索文档和网络、合成发现。
代码智能体：编写和执行代码来解决问题。
规划智能体：将复杂任务分解为子任务、委派给其他智能体。
对话智能体：维护内存、回答问题、从反馈中学习。
工作流自动化：读取电子邮件、执行任务、发送确认。

本地AI智能体实现中最常见的错误是什么

大多数本地智能体失败追溯到五个根本原因：工具过载、工具描述模糊、无限循环、缺少错误处理和模型大小不匹配。

工具太多：智能体因选项太多而混乱。限制在5-10个相关工具。
工具描述弱：如果描述模糊，LLM不会正确使用工具。写清晰、具体的描述。
无限循环：智能体可能卡在推理循环中。添加最大迭代限制（例如10步）。
没有错误处理：工具调用可能失败。让智能体优雅地处理失败。
使用小型模型：3B模型不能很好地推理复杂智能体。自主智能体使用13B+。

⚠️Warning: 最大的错误是在没有硬迭代限制的情况下部署智能体。当LLM卡住时智能体可能永远循环。总是将max_iterations设置为10～20。

关于本地AI智能体的常见问题

🛠️Practice: 首先用最大迭代计数（例如5步）测试智能体以在生产部署前发现错误，可能浪费资源。

云智能体和本地智能体快多少

云智能体：每个推理步骤约1秒。本地智能体：根据模型大小和硬件每步约3～5秒。本地推理增加延迟但消除API成本并在自己的硬件上保留所有数据。

本地智能体能访问互联网吗

可以，如果你提供web_search工具。智能体以与任何其他函数相同的方式调用该工具。热门选项包括DuckDuckGo搜索API和结构化结果的SerpAPI。

我如何确保智能体不会破坏东西（例如删除文件）

在具有严格文件系统和网络权限的Docker容器内运行工具。用输入和输出记录每个工具调用以进行审计。在任何破坏性行动（文件删除、电子邮件发送）之前添加确认步骤。

我可以并行运行多个智能体吗

可以。使用FastAPI等异步框架来处理并发智能体请求。每个请求获得自己的对话状态。注意，每个并行智能体需要自己的LLM推理线程，所以VRAM限制了你可以同时运行多少。

运行本地AI智能体需要最低硬件要求

建议使用13B+参数模型进行可靠的自主推理。至少需要16GB RAM，量子化13B模型的GPU最好8GB+ VRAM。在仅CPU硬件上，每个推理步骤预计5～15秒。

何时应该使用LangGraph而不是普通LangChain

当工作流需要循环、条件分支或从工具失败恢复时使用LangGraph。普通LangChain适合线性管道（步骤A → B → C）不带决策点。如果智能体需要在失败步骤后重试或再次推理，LangGraph的图结构妥善处理。

LangGraph和LangChain一样吗

不。LangChain是构建链和管道的通用LLM工具包。LangGraph是专为智能体和有状态工作流而在LangChain基础上构建的分离框架——它添加可靠推理循环所需的图结构（节点、边、状态）。

本地智能体应该有多少工具

将智能体限制在5～10个工具。选项太多时，LLM难以选择正确的工具，每步延迟增加。从3～5个核心工具开始，只在遇到具体功能缺口时扩展。在50字以内写每个工具描述，说明确切使用时机。

快速事实

本地智能体延迟：每个推理步骤约3～5秒（对比云智能体约1秒）
模型最低值：13B+参数用于可靠的自主多步智能体
工具限制：每个智能体5～10个工具——超过10个决策质量下降
最大迭代：设置10～20步的硬制限以防止无限循环
硬件：量子化7B模型用8GB+ VRAM ; 13B智能体用16GB+
CPU上的推理延迟：13B时每步5～15秒（Ollama默认）

区域背景和部署规制

中国（数据安全法）：2021年《数据安全法》和个人信息保护法（PIPL）要求特定数据类别保留在中国境内。使用Qwen2.5或其他自托管模型的本地智能体满足这些驻留要求，云推理则不然。对于金融机构、医疗提供商和法律事务所处理敏感客户数据的企业部署，本地推理保证了PIPL和行业安全标准合规。

亚太地区（数据跨界）：ASEAN地区个国家（新加坡个人数据保护法、泰国个人数据保护法、越南数据安全法）要求个人数据跨境转移最小化。本地智能体通过在ASEAN区域内的服务器运行满足这些要求。多国ASEAN个人信息保护框架（APIAN）优先支持本地或区域性部署，以实现合规且减少跨界API调用。

企业部署（金融、医疗、法律）：银行、医院和律师事务所处理受管制数据（支付卡信息、患者记录、法律通讯）的部署可以使用本地智能体来维持完全的数据驻留和审计控制。这消除了由于第三方API依赖而产生的监管负担，并为受保护信息提供端到端加密和本地日志记录。

来源

LangGraph官方文档 — 链、节点、状态、持久化。
Ollama官方文档 — 安装、模型、API集成。
调试LLM智能体 — Scarf Lynch — 智能体调试、无限循环、错误处理。
使用LangChain构建智能体 — LangChain文档 — 智能体集成教程。
智能体性能评估 — OpenAI evals — 智能体基准测试。

使用LangGraph和Ollama的本地AI智能体：构建自主决策系统

演示文稿: 使用LangGraph和Ollama的本地AI智能体：构建自主决策系统

AI智能体如何运作

智能体和链有什么区别

LangGraph架构如何运作

智能体可以使用哪些工具

智能体如何推理和规划

哪些本地智能体模式效果最好

本地AI智能体实现中最常见的错误是什么

关于本地AI智能体的常见问题

云智能体和本地智能体快多少

本地智能体能访问互联网吗

我如何确保智能体不会破坏东西（例如删除文件）

我可以并行运行多个智能体吗

运行本地AI智能体需要最低硬件要求

何时应该使用LangGraph而不是普通LangChain

LangGraph和LangChain一样吗

本地智能体应该有多少工具

快速事实

区域背景和部署规制

来源

A Note on Third-Party Facts

使用LangGraph和Ollama的本地AI智能体：构建自主决策系统

演示文稿: 使用LangGraph和Ollama的本地AI智能体：构建自主决策系统

AI智能体如何运作

智能体和链有什么区别

LangGraph架构如何运作

智能体可以使用哪些工具

智能体如何推理和规划

哪些本地智能体模式效果最好

本地AI智能体实现中最常见的错误是什么

关于本地AI智能体的常见问题

云智能体和本地智能体快多少

本地智能体能访问互联网吗

我如何确保智能体不会破坏东西（例如删除文件）

我可以并行运行多个智能体吗

运行本地AI智能体需要最低硬件要求

何时应该使用LangGraph而不是普通LangChain

LangGraph和LangChain一样吗

本地智能体应该有多少工具

快速事实

区域背景和部署规制

相关阅读

来源

A Note on Third-Party Facts