Key Takeaways
- Agente de IA = LLM + herramientas + bucle. El LLM decide qué herramienta usar, la ejecuta, observa el resultado y decide la siguiente acción.
- LangGraph es un framework para construir flujos de trabajo agénticos usando LLMs locales o en la nube.
- Componentes clave: LLM (Ollama), herramientas (búsqueda web, ejecución de código, acceso a archivos), memoria (historial de conversación), planificación (bucles de razonamiento).
- Los agentes locales son más lentos que los de la nube (el razonamiento del LLM toma tiempo) pero son privados y personalizables.
- A partir de abril de 2026, los agentes locales funcionan mejor para tareas que se benefician del razonamiento por encima de la velocidad.
¿Cómo funciona un agente de IA?
Un agente sigue este bucle: (1) observar estado/contexto, (2) el LLM razona sobre la mejor acción, (3) ejecutar la acción (llamada a herramienta), (4) observar el resultado, (5) repetir hasta terminar.
Ejemplo: agente de investigación con la tarea "Comparar Llama 3.2 vs Qwen 2.5 en tareas de codificación".
- Observación: tarea recibida.
- Razonamiento: necesito encontrar benchmarks, buscar puntuaciones HumanEval.
- Acción: usar la herramienta web_search para buscar "Llama 3.2 HumanEval benchmark".
- Observación: texto recuperado con puntuaciones.
- Acción: buscar "Qwen 2.5 HumanEval".
- Razonamiento: ambos modelos encontrados. Qwen es más rápido, Llama es más general.
- Acción final: sintetizar la respuesta y devolver.
Un agente de IA es un programa que usa un LLM para decidir qué herramienta llamar a continuación, observa el resultado y decide de nuevo, repitiendo hasta que la tarea esté completa.
💡Tip: La diferencia clave con una cadena es que los agentes usan la salida del LLM para *decidir* qué ocurre a continuación, en lugar de seguir un camino predeterminado.
¿Cuál es la diferencia entre agentes y cadenas?
Los agentes toman decisiones dinámicas en tiempo de ejecución; las cadenas siguen una secuencia predeterminada. Usa agentes cuando la tarea requiere razonamiento o recuperación de errores — usa cadenas para flujos de trabajo fijos y predecibles.
| Aspecto | Cadenas | Agentes |
|---|---|---|
| Toma de decisiones | Secuencia predeterminada | Dinámica, el LLM decide |
| Bucles | Sin bucles | Bucle de razonamiento (repetir hasta terminar) |
| Recuperación de errores | Manejo manual de errores | El LLM puede recuperarse de fallos |
| Caso de uso | Flujos fijos (resumir → email) | Razonamiento complejo (investigación, automatización) |
| Complejidad | Simple, predecible | Complejo, comportamiento impredecible |
📌Note: Los agentes son más lentos e impredecibles que las cadenas porque el LLM debe tomar una decisión en cada paso. Si la velocidad es crítica y tu flujo de trabajo es conocido de antemano, usa una cadena.
¿Cómo funciona la arquitectura de LangGraph?
LangGraph define los agentes como grafos acíclicos dirigidos (DAG) con nodos (estados) y aristas (transiciones).
- Estado: información que el agente mantiene (contexto, observaciones, decisiones).
- Nodos: funciones que procesan el estado (razonamiento del LLM, ejecución de herramientas).
- Aristas: transiciones entre nodos (condicionales basadas en la salida del LLM).
- Herramientas: funciones que el LLM puede llamar (búsqueda web, ejecución de código, consultas a bases de datos).
LangGraph es como un diagrama de flujo donde el LLM decide qué flecha seguir en cada caja de decisión — y puede retroceder cuando algo sale mal.
¿Qué herramientas pueden usar los agentes?
La capacidad de un agente está definida completamente por sus herramientas — las funciones que puede llamar para interactuar con el mundo. Limita a 5–10 herramientas por agente para evitar la parálisis de decisión.
- Búsqueda web: buscar información en internet (DuckDuckGo, Google, Bing).
- Ejecución de código: ejecutar código Python y devolver resultados.
- Operaciones de archivos: leer/escribir archivos, listar directorios.
- Consultas a bases de datos: consultar bases de datos locales o remotas.
- Recuperación de documentos: buscar en la base de datos vectorial RAG.
- Calculadora: realizar aritmética y matemáticas simbólicas.
- Email: enviar mensajes (con cautela, verificar permisos).
- Llamadas a la API: interactuar con servicios externos.
⚠️Warning: Demasiadas herramientas confunden al LLM — la latencia por paso aumenta y el agente selecciona la herramienta incorrecta con mayor frecuencia. Comienza con 3–5 herramientas esenciales.
🛠️Practice: Escribe cada descripción de herramienta en menos de 50 palabras e indica exactamente cuándo usarla. Una descripción clara ayuda al LLM a elegir la herramienta correcta.
¿Cómo razonan y planifican los agentes?
El razonamiento del agente depende del tamaño del modelo LLM y la calidad del prompt.
- Modelos pequeños (3-7B): razonamiento limitado. Funcionan mejor con tareas deterministas (búsqueda de herramientas, clasificación).
- Modelos medianos (13-30B): razonamiento decente. Pueden manejar cadenas de razonamiento de 2-3 pasos.
- Modelos grandes (70B+): razonamiento sólido. Pueden resolver problemas complejos con planificación en varios pasos.
Técnica de prompting: Chain-of-Thought (CoT) ayuda a los agentes a pensar en los pasos antes de decidir. Asegúrate de que Ollama esté instalado y en ejecución antes de probar el rendimiento del razonamiento.
❌ Prompt incorrecto
“Eres un asistente de IA útil. Un usuario te pedirá que hagas investigación. Haz lo mejor que puedas.”
✅ Prompt correcto
“Eres un agente de investigación. Para cada tarea: (1) divídela en 2–3 subpreguntas, (2) busca cada una usando la herramienta web_search, (3) sintetiza los hallazgos, (4) cita las fuentes. Explica siempre tu razonamiento antes de llamar a una herramienta. Límite estricto: máximo 10 pasos de razonamiento.”
# Ejemplo: prompt de razonamiento CoT para agente
system_prompt = """
You are a research agent. Break complex tasks into steps:
1. Identify what information you need
2. Call appropriate tools to gather information
3. Analyze results and determine next steps
4. Return the final answer with sources
Always reason step-by-step before calling tools.
"""🔍Insight: Los prompts Chain-of-Thought funcionan bien para los agentes — el razonamiento explícito paso a paso ayuda al LLM a hacer mejores elecciones de herramientas.
⚠️Warning: Los prompts genéricos de "asistente útil" fallan en los agentes autónomos. Necesitas límites explícitos de pasos, reglas de formato de salida e instrucciones de razonamiento de herramientas.
¿Qué patrones de agentes locales funcionan mejor?
Cinco patrones cubren la mayoría de los casos de uso de agentes locales. Elige según si la necesidad principal es razonamiento, ejecución de código, planificación, conversación o automatización.
- Agente de investigación: busca documentos y la web, sintetiza hallazgos.
- Agente de código: escribe y ejecuta código para resolver problemas.
- Agente de planificación: divide tareas complejas en subtareas, delega a otros agentes.
- Agente conversacional: mantiene memoria, responde preguntas, aprende del feedback.
- Automatización de flujos de trabajo: lee emails, ejecuta tareas, envía confirmaciones.
¿Cuáles son los errores más comunes en la implementación de agentes?
La mayoría de los fallos de agentes locales se remontan a cinco causas raíz: sobrecarga de herramientas, descripciones de herramientas vagas, bucles infinitos, falta de manejo de errores y desajuste del tamaño del modelo.
- Demasiadas herramientas: el agente se confunde con demasiadas opciones. Limita a 5-10 herramientas relevantes.
- Descripciones de herramientas deficientes: el LLM no usará las herramientas correctamente si las descripciones son vagas. Escribe descripciones claras y específicas.
- Bucles infinitos: el agente puede quedarse atascado en bucles de razonamiento. Agrega un límite máximo de iteraciones (por ejemplo, 10 pasos).
- Sin manejo de errores: las llamadas a herramientas pueden fallar. Haz que el agente maneje los fallos con elegancia.
- Usar modelos pequeños: los modelos de 3B no pueden razonar lo suficientemente bien para agentes complejos. Usa 13B+ para agentes autónomos.
⚠️Warning: El mayor error es desplegar un agente sin un límite estricto de iteraciones. Los agentes pueden entrar en bucle indefinidamente si el LLM se queda atascado. Establece siempre max_iterations en 10–20.
Preguntas frecuentes sobre agentes de IA locales
🛠️Practice: Prueba los agentes primero con un conteo máximo de iteraciones (por ejemplo, 5 pasos) para detectar errores antes de desplegar en producción donde podrían desperdiciar recursos.
¿Cuánto más rápidos son los agentes en la nube frente a los agentes locales?
Agentes en la nube: ~1 segundo por paso de razonamiento. Agentes locales: ~3–5 segundos por paso según el tamaño del modelo y el hardware. La inferencia local agrega latencia pero elimina los costos de API y mantiene todos los datos en tu propio hardware.
¿Pueden los agentes locales acceder a internet?
Sí, si proporcionas una herramienta web_search. El agente llama a esa herramienta de la misma manera que llama a cualquier otra función. Las opciones más populares incluyen la API de búsqueda de DuckDuckGo y SerpAPI para resultados estructurados.
¿Cómo me aseguro de que un agente no rompa cosas (por ejemplo, elimine archivos)?
Ejecuta las herramientas dentro de un contenedor Docker con permisos estrictos de sistema de archivos y red. Registra cada llamada a herramienta con sus entradas y salidas para pistas de auditoría. Agrega un paso de confirmación antes de cualquier acción destructiva (eliminación de archivos, envío de email).
¿Puedo ejecutar varios agentes en paralelo?
Sí. Usa frameworks asíncronos como FastAPI para manejar solicitudes concurrentes de agentes. Cada solicitud obtiene su propio estado de conversación. Ten en cuenta que cada agente paralelo requiere su propio hilo de inferencia del LLM, por lo que la VRAM limita cuántos puedes ejecutar simultáneamente.
¿Cuál es el hardware mínimo necesario para ejecutar un agente de IA local?
Se recomienda un modelo de 13B+ parámetros para un razonamiento autónomo confiable. Eso requiere al menos 16 GB de RAM y preferiblemente una GPU con 8 GB+ de VRAM para un modelo 13B cuantizado. En hardware solo con CPU, espera 5–15 segundos por paso de razonamiento.
¿Cuándo debo usar LangGraph en lugar del LangChain simple?
Usa LangGraph cuando tu flujo de trabajo requiera bucles, ramificación condicional o recuperación de fallos de herramientas. El LangChain simple funciona bien para pipelines lineales (paso A → B → C) sin puntos de decisión. Si tu agente necesita reintentar o razonar de nuevo después de un paso fallido, la estructura de grafo de LangGraph maneja esto limpiamente.
¿LangGraph es lo mismo que LangChain?
No. LangChain es un toolkit de LLM de propósito general para construir cadenas y pipelines. LangGraph es un framework separado construido sobre LangChain específicamente para agentes y flujos de trabajo con estado — agrega la estructura de grafo (nodos, aristas, estado) necesaria para bucles de razonamiento confiables.
¿Cuántas herramientas debe tener un agente local?
Limita los agentes a 5–10 herramientas. Con demasiadas opciones, el LLM tiene dificultades para seleccionar la herramienta correcta y la latencia por paso aumenta. Comienza con 3–5 herramientas esenciales y expande solo cuando encuentres una brecha de capacidad específica. Escribe cada descripción de herramienta en menos de 50 palabras e indica exactamente cuándo usarla.
Datos rápidos
- Latencia del agente local: ~3–5 segundos por paso de razonamiento (vs ~1 segundo para agentes en la nube)
- Modelo mínimo: 13B+ parámetros para agentes autónomos de varios pasos confiables
- Límite de herramientas: 5–10 herramientas por agente — más de 10, la calidad de decisión baja
- Iteraciones máximas: establece un límite estricto de 10–20 pasos para prevenir bucles infinitos
- Hardware: 8 GB+ VRAM para un modelo 7B cuantizado; 16 GB+ para agentes de 13B
- Latencia de razonamiento en CPU: 5–15 segundos por paso a 13B (predeterminado de Ollama)
Contexto regional y regulaciones de despliegue
Los agentes locales son la opción predeterminada para flujos de trabajo regulados por el RGPD en la UE. Cuando los agentes procesan datos personales — registros de clientes, archivos médicos, documentos legales — la inferencia local mantiene los datos dentro de tu propia infraestructura y satisface los artículos 25 y 32 del RGPD sin requerir un acuerdo de procesamiento de datos con un proveedor de nube.
En Japón, la Ley de Protección de Información Personal (APPI), enmendada en 2022, restringe las transferencias de datos transfronterizas. Los agentes locales que se ejecutan en local satisfacen los requisitos de la APPI de forma predeterminada para las empresas que manejan datos confidenciales de clientes sin carga regulatoria adicional.
En China, la Ley de Seguridad de Datos de 2021 y la Ley de Protección de Información Personal (PIPL) requieren que ciertas categorías de datos permanezcan dentro de las fronteras chinas. Los agentes locales que usan Qwen2.5 u otros modelos alojados localmente satisfacen estos requisitos de residencia donde la inferencia en la nube no lo haría.
Fuentes
- Documentación de LangGraph — Repositorio oficial y documentación del framework de agentes LangGraph.
- Documentación de agentes de LangChain — Guía del módulo de agentes de LangChain con patrones de integración de herramientas.
- ReAct: Synergizing Reasoning and Acting in Language Models (Yao et al., 2022) — Artículo fundacional que introduce el bucle observar–razonar–actuar usado en los agentes de LangGraph.