关键要点
- AI智能体 = LLM + 工具 + 循环。LLM决定使用哪个工具、执行它、观察结果、决定下一个行动。
- LangGraph是使用本地或云LLM构建智能体工作流的框架。
- 主要组件:LLM(Ollama)、工具(网络搜索、代码执行、文件访问)、内存(对话历史)、规划(推理循环)。
- 本地智能体比云慢(LLM推理需要时间)但私密且可定制。
- 截至2026年4月,本地智能体最适合从推理中受益而非速度的任务。
AI智能体如何运作
智能体遵循这个循环:(1)观察状态/背景、(2)LLM推理最佳行动、(3)执行行动(工具调用)、(4)观察结果、(5)重复直到完成。
示例:研究智能体被给予任务"比较Llama 3.2与Qwen 2.5的编码任务"。
- 观察:收到任务。
- 推理:需要查找基准、搜索HumanEval分数。
- 行动:使用web_search工具搜索"Llama 3.2 HumanEval基准"。
- 观察:检索到带有分数的文本。
- 行动:搜索"Qwen 2.5 HumanEval"。
- 推理:两个模型都找到。Qwen更快,Llama更通用。
- 最终行动:合成答案并返回。
📍 简单一句话
AI智能体是一个程序,使用LLM来决定接下来调用哪个工具,观察结果,然后再次决定——重复直到任务完成。
💡Tip: 与链的关键区别是智能体使用LLM的输出来"决定"接下来会发生什么,而不是遵循预先确定的路径。
智能体和链有什么区别
智能体在运行时做出动态决策;链遵循预先确定的序列。当任务需要推理或错误恢复时使用智能体——对于固定、可预测的工作流使用链。
| 方面 | 链 | 智能体 |
|---|---|---|
| 决策制定 | 预先确定的序列 | 动态、LLM决定 |
| 循环 | 没有循环 | 推理循环(重复直到完成) |
| 错误恢复 | 手动错误处理 | LLM可以从错误中恢复 |
| 用例 | 固定工作流(总结 → 电子邮件) | 复杂推理(研究、自动化) |
| 复杂性 | 简单、可预测 | 复杂、不可预测的行为 |
📌Note: 智能体比链慢且更不可预测,因为LLM必须在每个步骤做出决定。如果速度至关重要且你的工作流是预先知道的,使用链。
LangGraph架构如何运作
LangGraph将智能体定义为具有节点(状态)和边(转换)的有向非环图(DAG)。
- 状态:智能体持有的信息(背景、观察、决策)。
- 节点:处理状态的函数(LLM推理、工具执行)。
- 边:节点之间的转换(基于LLM输出的条件)。
- 工具:LLM可以调用的函数(网络搜索、代码执行、数据库查询)。
💬 简单来说
LangGraph像一个流程图,LLM在每个决策框处决定跟随哪个箭头——当出现问题时可以循环回去。
智能体可以使用哪些工具
智能体的能力完全由其工具定义——它可以调用的与世界互动的函数。限制在每个智能体5~10个工具以避免决策麻痹。
- 网络搜索:在互联网上搜索信息(duckduckgo、Google、Bing)。
- 代码执行:运行Python代码并返回结果。
- 文件操作:读/写文件、列出目录。
- 数据库查询:查询本地或远程数据库。
- 文档检索:在RAG向量数据库中搜索文档。
- 计算器:执行算术和符号数学。
- 电子邮件:发送消息(谨慎、验证权限)。
- API调用:与外部服务交互。
⚠️Warning: 工具太多会混淆LLM——每步延迟增加,智能体更频繁地选择错误的工具。从3~5个核心工具开始。
🛠️Practice: 在少于50个字内写每个工具描述,并说明确切何时使用。清晰的描述帮助LLM选择正确的工具。
智能体如何推理和规划
智能体推理取决于LLM模型大小和提示质量。
- 小型模型(3-7B):推理受限。最适合确定性任务(工具查找、分类)。
- 中型模型(13-30B):不错的推理。可以处理2-3步推理链。
- 大型模型(70B+):强大推理。可以用多步规划解决复杂问题。
提示技术:Chain-of-Thought(CoT)帮助智能体在决策前思考步骤。在测试推理性能之前确保Ollama已安装并运行。
❌ 坏提示
“你是一个有用的AI助手。用户会要求你进行研究。尽力而为。”
✅ 好提示
“你是一个研究智能体。对于每个任务:(1)分解为2~3个子问题、(2)使用web_search工具搜索每个、(3)合成发现、(4)引用来源。在调用工具前总是解释你的推理。硬性限制:最多10个推理步骤。”
# 示例:智能体的CoT推理提示
system_prompt = """
你是一个研究智能体。将复杂任务分解为步骤:
1. 确定你需要哪些信息
2. 调用适当的工具来收集信息
3. 分析结果并确定下一步
4. 用来源返回最终答案
在调用工具之前总是逐步推理。
"""🔍Insight: Chain-of-Thought提示对智能体很好用——明确的逐步推理帮助LLM做出更好的工具选择。
⚠️Warning: 通用"有用助手"提示在自主智能体中失败。你需要明确的步骤限制、输出格式规则和工具推理指示。
哪些本地智能体模式效果最好
五种模式涵盖大多数本地智能体用例。根据主要需求选择——推理、代码执行、规划、对话或自动化。
- 研究智能体:搜索文档和网络、合成发现。
- 代码智能体:编写和执行代码来解决问题。
- 规划智能体:将复杂任务分解为子任务、委派给其他智能体。
- 对话智能体:维护内存、回答问题、从反馈中学习。
- 工作流自动化:读取电子邮件、执行任务、发送确认。
本地AI智能体实现中最常见的错误是什么
大多数本地智能体失败追溯到五个根本原因:工具过载、工具描述模糊、无限循环、缺少错误处理和模型大小不匹配。
- 工具太多:智能体因选项太多而混乱。限制在5-10个相关工具。
- 工具描述弱:如果描述模糊,LLM不会正确使用工具。写清晰、具体的描述。
- 无限循环:智能体可能卡在推理循环中。添加最大迭代限制(例如10步)。
- 没有错误处理:工具调用可能失败。让智能体优雅地处理失败。
- 使用小型模型:3B模型不能很好地推理复杂智能体。自主智能体使用13B+。
⚠️Warning: 最大的错误是在没有硬迭代限制的情况下部署智能体。当LLM卡住时智能体可能永远循环。总是将max_iterations设置为10~20。
关于本地AI智能体的常见问题
🛠️Practice: 首先用最大迭代计数(例如5步)测试智能体以在生产部署前发现错误,可能浪费资源。
云智能体和本地智能体快多少
云智能体:每个推理步骤约1秒。本地智能体:根据模型大小和硬件每步约3~5秒。本地推理增加延迟但消除API成本并在自己的硬件上保留所有数据。
本地智能体能访问互联网吗
可以,如果你提供web_search工具。智能体以与任何其他函数相同的方式调用该工具。热门选项包括DuckDuckGo搜索API和结构化结果的SerpAPI。
我如何确保智能体不会破坏东西(例如删除文件)
在具有严格文件系统和网络权限的Docker容器内运行工具。用输入和输出记录每个工具调用以进行审计。在任何破坏性行动(文件删除、电子邮件发送)之前添加确认步骤。
我可以并行运行多个智能体吗
可以。使用FastAPI等异步框架来处理并发智能体请求。每个请求获得自己的对话状态。注意,每个并行智能体需要自己的LLM推理线程,所以VRAM限制了你可以同时运行多少。
运行本地AI智能体需要最低硬件要求
建议使用13B+参数模型进行可靠的自主推理。至少需要16GB RAM,量子化13B模型的GPU最好8GB+ VRAM。在仅CPU硬件上,每个推理步骤预计5~15秒。
何时应该使用LangGraph而不是普通LangChain
当工作流需要循环、条件分支或从工具失败恢复时使用LangGraph。普通LangChain适合线性管道(步骤A → B → C)不带决策点。如果智能体需要在失败步骤后重试或再次推理,LangGraph的图结构妥善处理。
LangGraph和LangChain一样吗
不。LangChain是构建链和管道的通用LLM工具包。LangGraph是专为智能体和有状态工作流而在LangChain基础上构建的分离框架——它添加可靠推理循环所需的图结构(节点、边、状态)。
本地智能体应该有多少工具
将智能体限制在5~10个工具。选项太多时,LLM难以选择正确的工具,每步延迟增加。从3~5个核心工具开始,只在遇到具体功能缺口时扩展。在50字以内写每个工具描述,说明确切使用时机。
快速事实
- 本地智能体延迟:每个推理步骤约3~5秒(对比云智能体约1秒)
- 模型最低值:13B+参数用于可靠的自主多步智能体
- 工具限制:每个智能体5~10个工具——超过10个决策质量下降
- 最大迭代:设置10~20步的硬制限以防止无限循环
- 硬件:量子化7B模型用8GB+ VRAM ; 13B智能体用16GB+
- CPU上的推理延迟:13B时每步5~15秒(Ollama默认)
区域背景和部署规制
中国(数据安全法):2021年《数据安全法》和个人信息保护法(PIPL)要求特定数据类别保留在中国境内。使用Qwen2.5或其他自托管模型的本地智能体满足这些驻留要求,云推理则不然。对于金融机构、医疗提供商和法律事务所处理敏感客户数据的企业部署,本地推理保证了PIPL和行业安全标准合规。
亚太地区(数据跨界):ASEAN地区个国家(新加坡个人数据保护法、泰国个人数据保护法、越南数据安全法)要求个人数据跨境转移最小化。本地智能体通过在ASEAN区域内的服务器运行满足这些要求。多国ASEAN个人信息保护框架(APIAN)优先支持本地或区域性部署,以实现合规且减少跨界API调用。
企业部署(金融、医疗、法律):银行、医院和律师事务所处理受管制数据(支付卡信息、患者记录、法律通讯)的部署可以使用本地智能体来维持完全的数据驻留和审计控制。这消除了由于第三方API依赖而产生的监管负担,并为受保护信息提供端到端加密和本地日志记录。
来源
- LangGraph官方文档 — 链、节点、状态、持久化。
- Ollama官方文档 — 安装、模型、API集成。
- 调试LLM智能体 — Scarf Lynch — 智能体调试、无限循环、错误处理。
- 使用LangChain构建智能体 — LangChain文档 — 智能体集成教程。
- 智能体性能评估 — OpenAI evals — 智能体基准测试。