Points clés
- Agent IA = LLM + outils + boucle. Le LLM décide quel outil utiliser, l'exécute, observe le résultat, décide l'action suivante.
- LangGraph est un framework pour construire des workflows agentiques avec des LLM locaux ou cloud.
- Composants clés : LLM (Ollama), outils (recherche web, exécution code, accès fichiers), mémoire (historique conversations), planification (boucles raisonnement).
- Les agents locaux sont plus lents que le cloud (le raisonnement du LLM prend du temps) mais privés et personnalisables.
- À partir d'avril 2026, les agents locaux fonctionnent mieux pour les tâches qui bénéficient du raisonnement plutôt que de la vitesse.
Comment fonctionne un agent IA ?
Un agent suit cette boucle : (1) observer l'état/contexte, (2) le LLM raisonne sur la meilleure action, (3) exécuter l'action (appel outil), (4) observer le résultat, (5) répéter jusqu'à terminer.
Exemple : Agent de recherche chargé de la tâche « Comparer Llama 3.2 vs Qwen 2.5 sur les tâches de codage ».
- Observation : Tâche reçue.
- Raisonnement : Besoin de trouver les benchmarks, rechercher les scores HumanEval.
- Action : Utiliser l'outil web_search pour « Llama 3.2 HumanEval benchmark ».
- Observation : Texte récupéré avec scores.
- Action : Rechercher « Qwen 2.5 HumanEval ».
- Raisonnement : Les deux modèles trouvés. Qwen est plus rapide, Llama est plus général.
- Action finale : Synthétiser la réponse et retourner.
📍 En une phrase
Un agent IA est un programme qui utilise un LLM pour décider quel outil appeler ensuite, observe le résultat, puis décide à nouveau — en répétant jusqu'à ce que la tâche soit terminée.
💡Tip: La différence clé avec une chaîne est que les agents utilisent la sortie du LLM pour *décider* ce qui se passe ensuite, plutôt que de suivre un chemin prédéterminé.
Quelle est la différence entre les agents et les chaînes ?
Les agents prennent des décisions dynamiques à l'exécution ; les chaînes suivent une séquence prédéterminée. Utilisez les agents quand la tâche nécessite du raisonnement ou de la récupération d'erreurs — utilisez les chaînes pour des workflows fixes et prévisibles.
| Aspect | Chaînes | Agents |
|---|---|---|
| Prise de décision | Séquence prédéterminée | Dynamique, LLM décide |
| Boucles | Pas de boucles | Boucle raisonnement (répéter jusqu'à terminer) |
| Récupération erreurs | Gestion manuelle | Le LLM peut récupérer des erreurs |
| Cas d'usage | Workflows fixes (résumer → email) | Raisonnement complexe (recherche, automatisation) |
| Complexité | Simple, prévisible | Complexe, comportement imprévisible |
📌Note: Les agents sont plus lents et plus imprévisibles que les chaînes parce que le LLM doit prendre une décision à chaque étape. Si la vitesse est critique et votre workflow est connu à l'avance, utilisez une chaîne.
Comment fonctionne l'architecture de LangGraph ?
LangGraph définit les agents comme des graphes acycliques dirigés (DAG) avec des nœuds (états) et des arêtes (transitions).
- État : Informations que l'agent détient (contexte, observations, décisions).
- Nœuds : Fonctions qui traitent l'état (raisonnement LLM, exécution outil).
- Arêtes : Transitions entre nœuds (conditionnelles basées sur la sortie LLM).
- Outils : Fonctions que le LLM peut appeler (recherche web, exécution code, requêtes base de données).
💬 En termes simples
LangGraph est comme un organigramme où le LLM décide quelle flèche suivre à chaque boîte de décision — et peut revenir en arrière quand quelque chose tourne mal.
Quels outils les agents peuvent-ils utiliser ?
La capacité d'un agent est entièrement définie par ses outils — les fonctions qu'il peut appeler pour interagir avec le monde. Limitez-vous à 5–10 outils par agent pour éviter la paralysie décisionnelle.
- Recherche web : Rechercher sur internet pour trouver des informations (duckduckgo, Google, Bing).
- Exécution code : Exécuter du code Python et retourner les résultats.
- Opérations fichiers : Lire/écrire des fichiers, lister les répertoires.
- Requêtes base de données : Interroger les bases de données locales ou distantes.
- Récupération documents : Rechercher dans la base de données vectorielle RAG.
- Calculatrice : Effectuer des calculs arithmétiques et mathématiques symboliques.
- Email : Envoyer des messages (avec précaution, vérifier les permissions).
- Appels API : Interagir avec les services externes.
⚠️Warning: Trop d'outils confondent le LLM — la latence par étape augmente et l'agent sélectionne le mauvais outil plus souvent. Commencez avec 3–5 outils essentiels.
🛠️Practice: Écrivez chaque description d'outil en moins de 50 mots et indiquez exactement quand l'utiliser. Une description claire aide le LLM à choisir le bon outil.
Comment les agents raisonnent et planifient ?
Le raisonnement de l'agent dépend de la taille du modèle LLM et de la qualité du prompt.
- Petits modèles (3-7B) : Raisonnement limité. Fonctionnent mieux avec les tâches déterministes (recherche outil, classification).
- Modèles moyens (13-30B) : Raisonnement décent. Peuvent gérer 2-3 chaînes de raisonnement.
- Grands modèles (70B+) : Raisonnement fort. Peuvent résoudre des problèmes complexes avec planification multi-étapes.
Technique de prompt : Chain-of-Thought (CoT) aide les agents à penser les étapes avant de décider. Assurez-vous que Ollama est installé et en cours d'exécution avant de tester la performance du raisonnement.
❌ Mauvais Prompt
“Vous êtes un assistant IA utile. Un utilisateur vous demandera de faire de la recherche. Faites de votre mieux.”
✅ Bon Prompt
“Vous êtes un agent de recherche. Pour chaque tâche : (1) divisez-la en 2–3 sous-questions, (2) recherchez chacune en utilisant l'outil web_search, (3) synthétisez les résultats, (4) citez les sources. Expliquez toujours votre raisonnement avant d'appeler un outil. Limite stricte : 10 étapes de raisonnement maximum.”
# Exemple : prompt de raisonnement CoT pour agent
system_prompt = """
Vous êtes un agent de recherche. Divisez les tâches complexes en étapes :
1. Identifiez les informations dont vous avez besoin
2. Appelez les outils appropriés pour rassembler les informations
3. Analysez les résultats et déterminez les prochaines étapes
4. Retournez la réponse finale avec des sources
Raisonnez toujours étape par étape avant d'appeler les outils.
"""🔍Insight: Les prompts Chain-of-Thought fonctionnent bien pour les agents — le raisonnement explicite étape par étape aide le LLM à faire de meilleurs choix d'outils.
⚠️Warning: Les prompts génériques « assistant utile » échouent pour les agents autonomes. Vous avez besoin de limites d'étapes explicites, de règles de format de sortie et d'instructions de raisonnement des outils.
Quels motifs d'agents locaux fonctionnent le mieux ?
Cinq motifs couvrent la plupart des cas d'usage des agents locaux. Choisissez en fonction de la nécessité principale : raisonnement, exécution de code, planification, conversation ou automatisation.
- Agent de recherche : Recherche dans les documents et le web, synthétise les résultats.
- Agent code : Écrit et exécute du code pour résoudre les problèmes.
- Agent planification : Divise les tâches complexes en sous-tâches, délègue à d'autres agents.
- Agent conversationnel : Maintient la mémoire, répond aux questions, apprend des retours.
- Automatisation de workflows : Lit les emails, exécute les tâches, envoie les confirmations.
Quelles sont les erreurs les plus courantes dans l'implémentation des agents ?
La plupart des défaillances d'agents locaux remontent à cinq causes racines : surcharge d'outils, descriptions d'outils vagues, boucles infinies, gestion d'erreurs manquante et inadéquation de la taille du modèle.
- Trop d'outils : L'agent se confond avec trop d'options. Limitez-vous à 5-10 outils pertinents.
- Descriptions d'outils faibles : Le LLM n'utilisera pas les outils correctement si les descriptions sont vagues. Écrivez des descriptions claires et spécifiques.
- Boucles infinies : L'agent peut se bloquer dans des boucles de raisonnement. Ajoutez une limite d'itération max (p.ex., 10 étapes).
- Aucune gestion d'erreurs : Les appels d'outils peuvent échouer. Faites en sorte que l'agent gère les défaillances correctement.
- Utiliser des petits modèles : Les modèles 3B ne peuvent pas raisonner assez bien pour les agents complexes. Utilisez 13B+ pour les agents autonomes.
⚠️Warning: La plus grande erreur est de déployer un agent sans limite d'itération stricte. Les agents peuvent boucler indéfiniment si le LLM est bloqué. Définissez toujours max_iterations à 10–20.
Questions courantes sur les agents IA locaux
🛠️Practice: Testez d'abord les agents avec un nombre d'itérations max (p.ex., 5 étapes) pour détecter les bugs avant de déployer en production où ils pourraient gaspiller les ressources.
Quelle est la différence de vitesse entre les agents cloud et les agents locaux ?
Agents cloud : ~1 sec par étape de raisonnement. Agents locaux : ~3–5 sec par étape selon la taille du modèle et le matériel. L'inférence locale ajoute de la latence mais élimine les coûts API et garde toutes les données sur votre propre matériel.
Les agents locaux peuvent-ils accéder à Internet ?
Oui, si vous fournissez un outil web_search. L'agent appelle cet outil comme n'importe quel autre fonction. Les options populaires incluent l'API DuckDuckGo et SerpAPI pour les résultats structurés.
Comment m'assurer qu'un agent n'endommage pas les choses (p.ex., supprimer des fichiers) ?
Exécutez les outils dans un conteneur Docker avec des permissions strictes d'accès fichier et réseau. Enregistrez chaque appel d'outil avec ses entrées et sorties pour l'audit. Ajoutez une étape de confirmation avant toute action destructrice (suppression fichier, envoi email).
Puis-je exécuter plusieurs agents en parallèle ?
Oui. Utilisez des frameworks asynchrones comme FastAPI pour gérer les requêtes concurrentes des agents. Chaque requête obtient son propre état de conversation. Notez que chaque agent parallèle nécessite son propre thread d'inférence LLM, donc la VRAM limite le nombre que vous pouvez exécuter simultanément.
Quel est le matériel minimum nécessaire pour exécuter un agent IA local ?
Un modèle 13B+ paramètres est recommandé pour un raisonnement autonome fiable. Cela nécessite au moins 16 GB de RAM et de préférence une GPU avec 8 GB+ VRAM pour un modèle 13B quantifié. Sur du matériel CPU uniquement, attendez-vous à 5–15 secondes par étape de raisonnement.
Quand devrais-je utiliser LangGraph au lieu de LangChain simple ?
Utilisez LangGraph quand votre workflow nécessite des boucles, du branchement conditionnel ou de la récupération des défaillances. LangChain simple fonctionne bien pour les pipelines linéaires (étape A → B → C) sans points de décision. Si votre agent doit réessayer ou raisonner après une étape échouée, la structure graphique de LangGraph gère cela correctement.
LangGraph est-il la même chose que LangChain ?
Non. LangChain est une boîte à outils LLM polyvalente pour construire des chaînes et des pipelines. LangGraph est un framework distinct construit sur LangChain spécifiquement pour les agents et les workflows avec état — il ajoute la structure graphique (nœuds, arêtes, état) nécessaire pour les boucles de raisonnement fiables.
Combien d'outils devrait avoir un agent local ?
Limitez les agents à 5–10 outils. Avec trop d'options, le LLM a du mal à sélectionner le bon outil et la latence par étape augmente. Commencez avec 3–5 outils essentiels et développez uniquement quand vous frappez une lacune de capacité spécifique. Écrivez chaque description d'outil en moins de 50 mots et indiquez exactement quand l'utiliser.
Faits rapides
- Latence agent local : ~3–5 sec par étape de raisonnement (vs ~1 sec pour agents cloud)
- Modèle minimum : Paramètres 13B+ pour les agents multi-étapes autonomes fiables
- Limite outils : 5–10 outils par agent — au-delà de 10, la qualité de décision chute
- Itérations max : Définir une limite stricte de 10–20 étapes pour éviter les boucles infinies
- Matériel : 8 GB+ VRAM pour un modèle 7B quantifié ; 16 GB+ pour agents 13B
- Latence raisonnement sur CPU : 5–15 sec par étape à 13B (Ollama par défaut)
Contexte régional et réglementations de déploiement
Les agents locaux sont le choix par défaut pour les workflows réglementés par le RGPD en l'UE. Quand les agents traitent les données personnelles — dossiers clients, fichiers médicaux, documents juridiques — l'inférence locale garde les données dans votre propre infrastructure et satisfait les articles 25 et 32 du RGPD sans nécessiter un accord de traitement des données avec un fournisseur cloud. De plus, la Commission Nationale de l'Informatique et des Libertés (CNIL) recommande les modèles locaux quand vous gérez des données sensibles dans les secteurs financier, médical et juridique.
Au Japon, la Loi sur la protection des informations personnelles (APPI), modifiée en 2022, restreint les transferts de données transfrontaliers. Les agents locaux fonctionnant sur site satisfont les exigences APPI par défaut pour les entreprises traitant les données clients sensibles sans charge réglementaire supplémentaire.
En Chine, la loi 2021 sur la sécurité des données et la loi sur la protection des informations personnelles (PIPL) exigent que certaines catégories de données restent dans les frontières chinoises. Les agents locaux utilisant Qwen2.5 ou d'autres modèles auto-hébergés satisfont ces exigences de résidence où l'inférence cloud ne le ferait pas.
Sources
- Documentation officielle de LangGraph — Chaînes, nœuds, états, persistence.
- Documentation officielle d'Ollama — Installation, modèles, intégration API.
- Déboguer les agents LLM — Scarf Lynch — Débogage agentic, boucles infinies, gestion d'erreurs.
- Construire des agents avec LangChain — LangChain Documentation — Tutoriels d'intégration d'agent.
- Évaluation des performances des agents — OpenAI evals — Benchmarking pour les agents.