Skip to main content
PromptQuorumPromptQuorum
Home/Local LLMs/Agentes de IA Locales con LangGraph y Ollama: Construye Sistemas de Toma de Decisiones Autónomos
Advanced Techniques

Agentes de IA Locales con LangGraph y Ollama: Construye Sistemas de Toma de Decisiones Autónomos

·13 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Los agentes de IA son sistemas que toman acciones basadas en observaciones y razonamiento. LangGraph es un framework para construir flujos de trabajo agénticos usando LLMs locales. Los agentes pueden explorar documentos, usar herramientas y tomar decisiones secuenciales.

Los agentes de IA siguen un bucle: observar el contexto, razonar sobre la mejor acción, llamar a una herramienta y repetir hasta completar la tarea. LangGraph es un framework para construir estos flujos de trabajo agénticos usando LLMs locales a través de Ollama. A partir de abril de 2026, los agentes locales gestionan automatización, investigación y soporte de decisiones sin ninguna dependencia de la nube.

Slide Deck: Agentes de IA Locales con LangGraph y Ollama: Construye Sistemas de Toma de Decisiones Autónomos

La presentación cubre: cómo funcionan los agentes de IA (bucle observar-razonar-actuar), agentes vs. cadenas, arquitectura de LangGraph con nodos y aristas, herramientas que los agentes pueden usar (búsqueda web, ejecución de código, operaciones de archivos, consultas a bases de datos), tamaño del modelo y capacidades de razonamiento, cinco patrones de agentes locales (investigación, código, planificación, conversacional, automatización de flujos de trabajo), errores comunes de implementación, cuándo usar LangGraph vs. LangChain, requisitos de hardware y expectativas de latencia, y requisitos de cumplimiento regional (RGPD, APPI, PIPL). Descarga el PDF como Guía de implementación de agentes de IA locales.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

  • Agente de IA = LLM + herramientas + bucle. El LLM decide qué herramienta usar, la ejecuta, observa el resultado y decide la siguiente acción.
  • LangGraph es un framework para construir flujos de trabajo agénticos usando LLMs locales o en la nube.
  • Componentes clave: LLM (Ollama), herramientas (búsqueda web, ejecución de código, acceso a archivos), memoria (historial de conversación), planificación (bucles de razonamiento).
  • Los agentes locales son más lentos que los de la nube (el razonamiento del LLM toma tiempo) pero son privados y personalizables.
  • A partir de abril de 2026, los agentes locales funcionan mejor para tareas que se benefician del razonamiento por encima de la velocidad.

¿Cómo funciona un agente de IA?

Un agente sigue este bucle: (1) observar estado/contexto, (2) el LLM razona sobre la mejor acción, (3) ejecutar la acción (llamada a herramienta), (4) observar el resultado, (5) repetir hasta terminar.

Ejemplo: agente de investigación con la tarea "Comparar Llama 3.2 vs Qwen 2.5 en tareas de codificación".

  • Observación: tarea recibida.
  • Razonamiento: necesito encontrar benchmarks, buscar puntuaciones HumanEval.
  • Acción: usar la herramienta web_search para buscar "Llama 3.2 HumanEval benchmark".
  • Observación: texto recuperado con puntuaciones.
  • Acción: buscar "Qwen 2.5 HumanEval".
  • Razonamiento: ambos modelos encontrados. Qwen es más rápido, Llama es más general.
  • Acción final: sintetizar la respuesta y devolver.

Un agente de IA es un programa que usa un LLM para decidir qué herramienta llamar a continuación, observa el resultado y decide de nuevo, repitiendo hasta que la tarea esté completa.

Bucle observar-razonar-actuar del agente: ciclo de cinco pasos en el que el LLM decide qué herramienta llamar a continuación, la ejecuta, observa el resultado y repite hasta completar la tarea. Los agentes locales ejecutan este bucle completamente en el dispositivo sin llamadas a la API.
Bucle observar-razonar-actuar del agente: ciclo de cinco pasos en el que el LLM decide qué herramienta llamar a continuación, la ejecuta, observa el resultado y repite hasta completar la tarea. Los agentes locales ejecutan este bucle completamente en el dispositivo sin llamadas a la API.

💡Tip: La diferencia clave con una cadena es que los agentes usan la salida del LLM para *decidir* qué ocurre a continuación, en lugar de seguir un camino predeterminado.

¿Cuál es la diferencia entre agentes y cadenas?

Los agentes toman decisiones dinámicas en tiempo de ejecución; las cadenas siguen una secuencia predeterminada. Usa agentes cuando la tarea requiere razonamiento o recuperación de errores — usa cadenas para flujos de trabajo fijos y predecibles.

AspectoCadenasAgentes
Toma de decisionesSecuencia predeterminadaDinámica, el LLM decide
BuclesSin buclesBucle de razonamiento (repetir hasta terminar)
Recuperación de erroresManejo manual de erroresEl LLM puede recuperarse de fallos
Caso de usoFlujos fijos (resumir → email)Razonamiento complejo (investigación, automatización)
ComplejidadSimple, predecibleComplejo, comportamiento impredecible
Comparación entre agentes y cadenas: los agentes usan razonamiento dinámico del LLM con bucles y autocorrección, ideales para tareas de razonamiento complejo; las cadenas siguen secuencias predeterminadas sin bucles, más rápidas pero inflexibles. Elige agentes para tareas que requieren adaptación, cadenas para flujos de trabajo fijos.
Comparación entre agentes y cadenas: los agentes usan razonamiento dinámico del LLM con bucles y autocorrección, ideales para tareas de razonamiento complejo; las cadenas siguen secuencias predeterminadas sin bucles, más rápidas pero inflexibles. Elige agentes para tareas que requieren adaptación, cadenas para flujos de trabajo fijos.

📌Note: Los agentes son más lentos e impredecibles que las cadenas porque el LLM debe tomar una decisión en cada paso. Si la velocidad es crítica y tu flujo de trabajo es conocido de antemano, usa una cadena.

¿Cómo funciona la arquitectura de LangGraph?

LangGraph define los agentes como grafos acíclicos dirigidos (DAG) con nodos (estados) y aristas (transiciones).

  • Estado: información que el agente mantiene (contexto, observaciones, decisiones).
  • Nodos: funciones que procesan el estado (razonamiento del LLM, ejecución de herramientas).
  • Aristas: transiciones entre nodos (condicionales basadas en la salida del LLM).
  • Herramientas: funciones que el LLM puede llamar (búsqueda web, ejecución de código, consultas a bases de datos).

LangGraph es como un diagrama de flujo donde el LLM decide qué flecha seguir en cada caja de decisión — y puede retroceder cuando algo sale mal.

Arquitectura del agente LangGraph con flujo de estado: los nodos representan el razonamiento del LLM y la ejecución de herramientas, las aristas representan transiciones condicionales, y el estado del agente mantiene contexto, observaciones, memoria y estado a lo largo del flujo de trabajo agéntico.
Arquitectura del agente LangGraph con flujo de estado: los nodos representan el razonamiento del LLM y la ejecución de herramientas, las aristas representan transiciones condicionales, y el estado del agente mantiene contexto, observaciones, memoria y estado a lo largo del flujo de trabajo agéntico.

¿Qué herramientas pueden usar los agentes?

La capacidad de un agente está definida completamente por sus herramientas — las funciones que puede llamar para interactuar con el mundo. Limita a 5–10 herramientas por agente para evitar la parálisis de decisión.

  • Búsqueda web: buscar información en internet (DuckDuckGo, Google, Bing).
  • Ejecución de código: ejecutar código Python y devolver resultados.
  • Operaciones de archivos: leer/escribir archivos, listar directorios.
  • Consultas a bases de datos: consultar bases de datos locales o remotas.
  • Recuperación de documentos: buscar en la base de datos vectorial RAG.
  • Calculadora: realizar aritmética y matemáticas simbólicas.
  • Email: enviar mensajes (con cautela, verificar permisos).
  • Llamadas a la API: interactuar con servicios externos.
Herramientas comunes de agentes: búsqueda web (latencia 2–5 s), ejecución de código (100–500 ms), operaciones de archivos (50–200 ms), consultas de bases de datos (100–800 ms) y recuperación de documentos mediante RAG (200–600 ms). Limitar los agentes a 5–10 herramientas evita la parálisis de decisión y reduce la latencia por paso.
Herramientas comunes de agentes: búsqueda web (latencia 2–5 s), ejecución de código (100–500 ms), operaciones de archivos (50–200 ms), consultas de bases de datos (100–800 ms) y recuperación de documentos mediante RAG (200–600 ms). Limitar los agentes a 5–10 herramientas evita la parálisis de decisión y reduce la latencia por paso.

⚠️Warning: Demasiadas herramientas confunden al LLM — la latencia por paso aumenta y el agente selecciona la herramienta incorrecta con mayor frecuencia. Comienza con 3–5 herramientas esenciales.

🛠️Practice: Escribe cada descripción de herramienta en menos de 50 palabras e indica exactamente cuándo usarla. Una descripción clara ayuda al LLM a elegir la herramienta correcta.

¿Cómo razonan y planifican los agentes?

El razonamiento del agente depende del tamaño del modelo LLM y la calidad del prompt.

  • Modelos pequeños (3-7B): razonamiento limitado. Funcionan mejor con tareas deterministas (búsqueda de herramientas, clasificación).
  • Modelos medianos (13-30B): razonamiento decente. Pueden manejar cadenas de razonamiento de 2-3 pasos.
  • Modelos grandes (70B+): razonamiento sólido. Pueden resolver problemas complejos con planificación en varios pasos.

Técnica de prompting: Chain-of-Thought (CoT) ayuda a los agentes a pensar en los pasos antes de decidir. Asegúrate de que Ollama esté instalado y en ejecución antes de probar el rendimiento del razonamiento.

❌ Prompt incorrecto

Eres un asistente de IA útil. Un usuario te pedirá que hagas investigación. Haz lo mejor que puedas.

✅ Prompt correcto

Eres un agente de investigación. Para cada tarea: (1) divídela en 2–3 subpreguntas, (2) busca cada una usando la herramienta web_search, (3) sintetiza los hallazgos, (4) cita las fuentes. Explica siempre tu razonamiento antes de llamar a una herramienta. Límite estricto: máximo 10 pasos de razonamiento.
python
# Ejemplo: prompt de razonamiento CoT para agente
system_prompt = """
You are a research agent. Break complex tasks into steps:
1. Identify what information you need
2. Call appropriate tools to gather information
3. Analyze results and determine next steps
4. Return the final answer with sources
Always reason step-by-step before calling tools.
"""

🔍Insight: Los prompts Chain-of-Thought funcionan bien para los agentes — el razonamiento explícito paso a paso ayuda al LLM a hacer mejores elecciones de herramientas.

⚠️Warning: Los prompts genéricos de "asistente útil" fallan en los agentes autónomos. Necesitas límites explícitos de pasos, reglas de formato de salida e instrucciones de razonamiento de herramientas.

¿Qué patrones de agentes locales funcionan mejor?

Cinco patrones cubren la mayoría de los casos de uso de agentes locales. Elige según si la necesidad principal es razonamiento, ejecución de código, planificación, conversación o automatización.

  • Agente de investigación: busca documentos y la web, sintetiza hallazgos.
  • Agente de código: escribe y ejecuta código para resolver problemas.
  • Agente de planificación: divide tareas complejas en subtareas, delega a otros agentes.
  • Agente conversacional: mantiene memoria, responde preguntas, aprende del feedback.
  • Automatización de flujos de trabajo: lee emails, ejecuta tareas, envía confirmaciones.
Cinco patrones de agentes locales: agentes de investigación para búsqueda de hechos, agentes de código para análisis de datos, agentes de planificación para flujos de trabajo complejos, agentes conversacionales para chatbots y preguntas y respuestas, y automatización de flujos de trabajo para procesamiento de emails y ejecución de tareas. Elige según la necesidad principal.
Cinco patrones de agentes locales: agentes de investigación para búsqueda de hechos, agentes de código para análisis de datos, agentes de planificación para flujos de trabajo complejos, agentes conversacionales para chatbots y preguntas y respuestas, y automatización de flujos de trabajo para procesamiento de emails y ejecución de tareas. Elige según la necesidad principal.

¿Cuáles son los errores más comunes en la implementación de agentes?

La mayoría de los fallos de agentes locales se remontan a cinco causas raíz: sobrecarga de herramientas, descripciones de herramientas vagas, bucles infinitos, falta de manejo de errores y desajuste del tamaño del modelo.

  • Demasiadas herramientas: el agente se confunde con demasiadas opciones. Limita a 5-10 herramientas relevantes.
  • Descripciones de herramientas deficientes: el LLM no usará las herramientas correctamente si las descripciones son vagas. Escribe descripciones claras y específicas.
  • Bucles infinitos: el agente puede quedarse atascado en bucles de razonamiento. Agrega un límite máximo de iteraciones (por ejemplo, 10 pasos).
  • Sin manejo de errores: las llamadas a herramientas pueden fallar. Haz que el agente maneje los fallos con elegancia.
  • Usar modelos pequeños: los modelos de 3B no pueden razonar lo suficientemente bien para agentes complejos. Usa 13B+ para agentes autónomos.

⚠️Warning: El mayor error es desplegar un agente sin un límite estricto de iteraciones. Los agentes pueden entrar en bucle indefinidamente si el LLM se queda atascado. Establece siempre max_iterations en 10–20.

Preguntas frecuentes sobre agentes de IA locales

🛠️Practice: Prueba los agentes primero con un conteo máximo de iteraciones (por ejemplo, 5 pasos) para detectar errores antes de desplegar en producción donde podrían desperdiciar recursos.

¿Cuánto más rápidos son los agentes en la nube frente a los agentes locales?

Agentes en la nube: ~1 segundo por paso de razonamiento. Agentes locales: ~3–5 segundos por paso según el tamaño del modelo y el hardware. La inferencia local agrega latencia pero elimina los costos de API y mantiene todos los datos en tu propio hardware.

¿Pueden los agentes locales acceder a internet?

Sí, si proporcionas una herramienta web_search. El agente llama a esa herramienta de la misma manera que llama a cualquier otra función. Las opciones más populares incluyen la API de búsqueda de DuckDuckGo y SerpAPI para resultados estructurados.

¿Cómo me aseguro de que un agente no rompa cosas (por ejemplo, elimine archivos)?

Ejecuta las herramientas dentro de un contenedor Docker con permisos estrictos de sistema de archivos y red. Registra cada llamada a herramienta con sus entradas y salidas para pistas de auditoría. Agrega un paso de confirmación antes de cualquier acción destructiva (eliminación de archivos, envío de email).

¿Puedo ejecutar varios agentes en paralelo?

Sí. Usa frameworks asíncronos como FastAPI para manejar solicitudes concurrentes de agentes. Cada solicitud obtiene su propio estado de conversación. Ten en cuenta que cada agente paralelo requiere su propio hilo de inferencia del LLM, por lo que la VRAM limita cuántos puedes ejecutar simultáneamente.

¿Cuál es el hardware mínimo necesario para ejecutar un agente de IA local?

Se recomienda un modelo de 13B+ parámetros para un razonamiento autónomo confiable. Eso requiere al menos 16 GB de RAM y preferiblemente una GPU con 8 GB+ de VRAM para un modelo 13B cuantizado. En hardware solo con CPU, espera 5–15 segundos por paso de razonamiento.

¿Cuándo debo usar LangGraph en lugar del LangChain simple?

Usa LangGraph cuando tu flujo de trabajo requiera bucles, ramificación condicional o recuperación de fallos de herramientas. El LangChain simple funciona bien para pipelines lineales (paso A → B → C) sin puntos de decisión. Si tu agente necesita reintentar o razonar de nuevo después de un paso fallido, la estructura de grafo de LangGraph maneja esto limpiamente.

¿LangGraph es lo mismo que LangChain?

No. LangChain es un toolkit de LLM de propósito general para construir cadenas y pipelines. LangGraph es un framework separado construido sobre LangChain específicamente para agentes y flujos de trabajo con estado — agrega la estructura de grafo (nodos, aristas, estado) necesaria para bucles de razonamiento confiables.

¿Cuántas herramientas debe tener un agente local?

Limita los agentes a 5–10 herramientas. Con demasiadas opciones, el LLM tiene dificultades para seleccionar la herramienta correcta y la latencia por paso aumenta. Comienza con 3–5 herramientas esenciales y expande solo cuando encuentres una brecha de capacidad específica. Escribe cada descripción de herramienta en menos de 50 palabras e indica exactamente cuándo usarla.

Datos rápidos

  • Latencia del agente local: ~3–5 segundos por paso de razonamiento (vs ~1 segundo para agentes en la nube)
  • Modelo mínimo: 13B+ parámetros para agentes autónomos de varios pasos confiables
  • Límite de herramientas: 5–10 herramientas por agente — más de 10, la calidad de decisión baja
  • Iteraciones máximas: establece un límite estricto de 10–20 pasos para prevenir bucles infinitos
  • Hardware: 8 GB+ VRAM para un modelo 7B cuantizado; 16 GB+ para agentes de 13B
  • Latencia de razonamiento en CPU: 5–15 segundos por paso a 13B (predeterminado de Ollama)

Contexto regional y regulaciones de despliegue

Los agentes locales son la opción predeterminada para flujos de trabajo regulados por el RGPD en la UE. Cuando los agentes procesan datos personales — registros de clientes, archivos médicos, documentos legales — la inferencia local mantiene los datos dentro de tu propia infraestructura y satisface los artículos 25 y 32 del RGPD sin requerir un acuerdo de procesamiento de datos con un proveedor de nube.

En Japón, la Ley de Protección de Información Personal (APPI), enmendada en 2022, restringe las transferencias de datos transfronterizas. Los agentes locales que se ejecutan en local satisfacen los requisitos de la APPI de forma predeterminada para las empresas que manejan datos confidenciales de clientes sin carga regulatoria adicional.

En China, la Ley de Seguridad de Datos de 2021 y la Ley de Protección de Información Personal (PIPL) requieren que ciertas categorías de datos permanezcan dentro de las fronteras chinas. Los agentes locales que usan Qwen2.5 u otros modelos alojados localmente satisfacen estos requisitos de residencia donde la inferencia en la nube no lo haría.

Fuentes

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Crea Agentes de IA Locales con LangGraph + Ollama (2026)