Startseite/Lokale LLMs/Lokale KI-Agenten mit LangGraph und Ollama: Autonome Entscheidungsfindungssysteme bauen

Fortgeschrittene Techniken

Lokale KI-Agenten mit LangGraph und Ollama: Autonome Entscheidungsfindungssysteme bauen

Aktualisiert: April 2026·13 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

KI-Agenten sind Systeme, die Aktionen basierend auf Beobachtungen und Überlegungen ausführen. LangGraph ist ein Framework zum Erstellen agentischer Workflows mit lokalen LLMs. Agenten können Dokumente durchsuchen, Tools verwenden und sequenzielle Entscheidungen treffen.

KI-Agenten folgen einer Schleife: Kontext beobachten, über die beste Aktion nachdenken, ein Werkzeug aufrufen und dann wiederholen, bis die Aufgabe abgeschlossen ist. LangGraph ist ein Framework zum Erstellen dieser agentischen Workflows mit lokalen LLMs über Ollama. Ab April 2026 können lokale Agenten Automatisierung, Recherche und Entscheidungsunterstützung ohne Cloud-Abhängigkeit handhaben.

Präsentation: Lokale KI-Agenten mit LangGraph und Ollama: Autonome Entscheidungsfindungssysteme bauen

Das Foliendeck behandelt: Wie KI-Agenten funktionieren (Beobachtungs-Überlegungs-Aktions-Schleife), Agenten vs. Chains, LangGraph-Architektur mit Knoten und Kanten, Tools, die Agenten verwenden können (Websuche, Code-Ausführung, Dateioperationen, Datenbankabfragen), Modellgröße und Überlegungensfähigkeiten, fünf lokale Agent-Muster (Recherche, Code, Planung, Konversation, Workflow-Automatisierung), häufige Implementierungsfehler, wann LangGraph vs. LangChain verwendet wird, Hardware-Anforderungen und Latenz-Erwartungen sowie regionale Compliance-Anforderungen (DSGVO, APPI, PIPL). PDF als Local AI Agents Implementation Guide herunterladen.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

KI-Agent = LLM + Tools + Schleife. LLM entscheidet, welches Tool zu verwenden ist, führt es aus, beobachtet das Ergebnis und entscheidet über die nächste Aktion.
LangGraph ist ein Framework zum Erstellen agentischer Workflows mit lokalen oder Cloud-LLMs.
Schlüsselkomponenten: LLM (Ollama), Tools (Websuche, Code-Ausführung, Dateizugriff), Speicher (Konversationsverlauf), Planung (Überlegungsschleifen).
Lokale Agenten sind langsamer als Cloud-Agenten (LLM-Überlegung braucht Zeit), aber privat und anpassbar.
Ab April 2026 funktionieren lokale Agenten am besten für Aufgaben, die von Überlegung über Geschwindigkeit profitieren.

Wie funktioniert ein KI-Agent?

Ein Agent folgt dieser Schleife: (1) Zustand/Kontext beobachten, (2) LLM denkt über beste Aktion nach, (3) Aktion ausführen (Tool-Aufruf), (4) Ergebnis beobachten, (5) wiederholen bis fertig.

Beispiel: Recherche-Agent mit der Aufgabe „Vergleiche Llama 3.2 vs Qwen 3 bei Codierungsaufgaben".

Beobachtung: Aufgabe empfangen.

Überlegung: Benchmarks finden, HumanEval-Scores suchen.

Aktion: Web_search-Tool verwenden, um „Llama 3.2 HumanEval Benchmark" zu finden.

Beobachtung: Text mit Scores abgerufen.

Aktion: Nach „Qwen 3 HumanEval" suchen.

Überlegung: Beide Modelle gefunden. Qwen ist schneller, Llama ist universeller.

Letzte Aktion: Antwort zusammenfassen und zurückgeben.

📍 In einem Satz

Ein KI-Agent ist ein Programm, das ein LLM nutzt, um zu entscheiden, welches Tool als nächstes aufgerufen wird, das Ergebnis beobachtet und dann erneut entscheidet – solange, bis die Aufgabe abgeschlossen ist.

💡Tip: Der Schlüsselunterschied zu einer Chain besteht darin, dass Agenten die LLM-Ausgabe verwenden, um zu *entscheiden*, was als nächstes geschieht, anstatt einen vordefinierten Pfad zu folgen.

Was ist der Unterschied zwischen Agenten und Chains?

Agenten treffen dynamische Entscheidungen zur Laufzeit; Chains folgen einer vordefinierten Reihenfolge. Verwenden Sie Agenten, wenn die Aufgabe Überlegung oder Fehlerwiederherstellung erfordert – nutzen Sie Chains für feste, vorhersehbare Workflows.

Aspekt	Chains	Agenten
Entscheidungsfindung	Vordefinierte Reihenfolge	Dynamisch, LLM entscheidet
Schleifen	Keine Schleifen	Überlegungsschleife (wiederholen bis fertig)
Fehlerwiederherstellung	Manuelle Fehlerbehandlung	LLM kann sich von Ausfällen erholen
Anwendungsfall	Feste Workflows (zusammenfassen → E-Mail)	Komplexe Überlegung (Recherche, Automatisierung)
Komplexität	Einfach, vorhersehbar	Komplex, unvorhersehbares Verhalten

📌Note: Agenten sind langsamer und weniger vorhersehbar als Chains, da das LLM bei jedem Schritt eine Entscheidung treffen muss. Wenn Geschwindigkeit entscheidend ist und Ihr Workflow im Voraus bekannt ist, verwenden Sie eine Chain.

Wie funktioniert die LangGraph-Architektur?

LangGraph definiert Agenten als gerichtete azyklische Graphen (DAGs) mit Knoten (Zuständen) und Kanten (Übergängen).

Zustand: Information, die der Agent speichert (Kontext, Beobachtungen, Entscheidungen).

Knoten: Funktionen, die den Zustand verarbeiten (LLM-Überlegung, Tool-Ausführung).

Kanten: Übergänge zwischen Knoten (bedingt basierend auf LLM-Ausgabe).

Tools: Funktionen, die das LLM aufrufen kann (Websuche, Code-Ausführung, Datenbankabfragen).

💬 In einfachen Worten

LangGraph ist wie ein Flussdiagramm, in dem das LLM bei jedem Entscheidungsfeld entscheidet, welcher Pfeil zu folgen ist – und kann zurückgehen, wenn etwas schief geht.

Welche Tools können Agenten verwenden?

Die Fähigkeit eines Agenten ist vollständig durch seine Tools definiert – die Funktionen, die es verwenden kann, um mit der Welt zu interagieren. Begrenzen Sie auf 5–10 Tools pro Agent, um Entscheidungslähmung zu vermeiden.

Websuche: Das Internet nach Informationen durchsuchen (DuckDuckGo, Google, Bing).
Code-Ausführung: Python-Code ausführen und Ergebnisse zurückgeben.
Dateivorgänge: Dateien lesen/schreiben, Verzeichnisse auflisten.
Datenbankabfragen: Lokale oder Remote-Datenbanken abfragen.
Dokumentabruf: RAG-Vektordatenbank nach Dokumenten durchsuchen.
Taschenrechner: Arithmetik und symbolische Mathematik durchführen.
E-Mail: Nachrichten senden (mit Vorsicht, Berechtigungen überprüfen).
API-Aufrufe: Mit externen Diensten interagieren.

⚠️Warning: Zu viele Tools verwirren das LLM – die Latenz pro Schritt nimmt zu und der Agent wählt häufiger das falsche Tool aus. Beginnen Sie mit 3–5 Kern-Tools.

🛠️Practice: Schreiben Sie jede Tool-Beschreibung in weniger als 50 Wörtern und geben Sie genau an, wann sie zu verwenden ist. Eine klare Beschreibung hilft dem LLM, das richtige Tool auszuwählen.

Wie denken und planen Agenten?

Die Agent-Überlegung hängt von der LLM-Modellgröße und Prompt-Qualität ab.

Kleine Modelle (3–7B): Begrenzte Überlegung. Funktionieren am besten bei deterministischen Aufgaben (Tool-Lookup, Klassifizierung).

Mittlere Modelle (13–30B): Vernünftige Überlegung. Können 2–3 Schritte Überlegungsketten verarbeiten.

Große Modelle (70B+): Starke Überlegung. Können komplexe Probleme mit mehrstufiger Planung lösen.

Prompt-Technik: Chain-of-Thought (CoT) hilft Agenten, Schritte durchzudenken, bevor sie entscheiden. Stellen Sie sicher, dass Ollama installiert und ausgeführt wird, bevor Sie die Überlegungsleistung testen.

❌ Schlechter Prompt

“Sie sind ein hilfsbereiter KI-Assistent. Ein Benutzer wird Sie bitten, Recherchen durchzuführen. Tun Sie Ihr Bestes.”

✅ Guter Prompt

“Sie sind ein Recherche-Agent. Für jede Aufgabe: (1) teilen Sie sie in 2–3 Teilfragen auf, (2) suchen Sie für jede mit dem web_search-Tool, (3) synthetisieren Sie Ergebnisse, (4) zitieren Sie Quellen. Erklären Sie immer Ihre Überlegung, bevor Sie ein Tool aufrufen. Hartes Limit: max. 10 Überlegungsschritte.”

python

# Beispiel: CoT-Überlegungsprompt für Agent
system_prompt = """
Sie sind ein Recherche-Agent. Teilen Sie komplexe Aufgaben in Schritte auf:
1. Ermitteln Sie, welche Informationen Sie benötigen
2. Rufen Sie geeignete Tools auf, um Informationen zu sammeln
3. Analysieren Sie Ergebnisse und bestimmen Sie die nächsten Schritte
4. Geben Sie die endgültige Antwort mit Quellen zurück
Denken Sie immer Schritt für Schritt nach, bevor Sie Tools aufrufen.
"""

🔍Insight: Chain-of-Thought-Prompts funktionieren gut für Agenten – explizites schrittweises Denken hilft dem LLM, bessere Tool-Wahlen zu treffen.

⚠️Warning: Generische „hilfsbereiter Assistent"-Prompts scheitern für autonome Agenten. Sie benötigen explizite Schrittgrenzen, Ausgabeformat-Regeln und Tool-Überlegungsanweisungen.

Welche lokalen Agent-Muster funktionieren am besten?

Fünf Muster decken die meisten lokalen Agent-Anwendungsfälle ab. Wählen Sie basierend darauf, ob der Hauptbedarf Überlegung, Code-Ausführung, Planung, Konversation oder Automatisierung ist.

Recherche-Agent: Durchsucht Dokumente und Web, synthetisiert Ergebnisse.
Code-Agent: Schreibt und führt Code aus, um Probleme zu lösen.
Planungs-Agent: Teilt komplexe Aufgaben in Teilaufgaben auf, delegiert an andere Agenten.
Gesprächs-Agent: Verwaltet Speicher, beantwortet Fragen, lernt aus Feedback.
Workflow-Automatisierung: Liest E-Mails, führt Aufgaben aus, sendet Bestätigungen.

Was sind die häufigsten Agent-Implementierungsfehler?

Die meisten lokalen Agent-Ausfälle lassen sich auf fünf Grundursachen zurückführen: Tool-Überladung, vage Tool-Beschreibungen, Endlosschleifen, fehlende Fehlerbehandlung und Modellgröße-Mismatch.

Zu viele Tools: Agent wird verwirrt durch zu viele Optionen. Begrenzen Sie auf 5–10 relevante Tools.
Schlechte Tool-Beschreibungen: LLM wird Tools nicht korrekt verwenden, wenn Beschreibungen vage sind. Schreiben Sie klare, spezifische Beschreibungen.
Endlosschleifen: Agent kann sich in Überlegungsschleifen verfangen. Fügen Sie ein maximales Iterationslimit hinzu (z. B. 10 Schritte).
Keine Fehlerbehandlung: Tool-Aufrufe können fehlschlagen. Der Agent sollte Fehler elegant verarbeiten.
Verwendung kleiner Modelle: 3B-Modelle können nicht gut genug denken für komplexe Agenten. Verwenden Sie 13B+ für autonome Agenten.

⚠️Warning: Der größte Fehler ist die Bereitstellung eines Agenten ohne hartes Iterationslimit. Agenten können für immer schleifen, wenn das LLM stecken bleibt. Setzen Sie immer max_iterations auf 10–20.

Häufig gestellte Fragen zu lokalen KI-Agenten

🛠️Practice: Testen Sie Agenten zunächst mit einer max. Iterationszahl (z. B. 5 Schritte), um Fehler zu erkennen, bevor Sie in der Produktion bereitstellen, wo sie Ressourcen verschwenden könnten.

Wie viel schneller sind Cloud-Agenten als lokale Agenten?

Cloud-Agenten: ~1 Sekunde pro Überlegungsschritt. Lokale Agenten: ~3–5 Sekunden pro Schritt je nach Modellgröße und Hardware. Lokale Inferenz fügt Latenz hinzu, beseitigt aber API-Kosten und speichert alle Daten auf Ihrer eigenen Hardware.

Können lokale Agenten auf das Internet zugreifen?

Ja, wenn Sie ein web_search-Tool bereitstellen. Der Agent ruft dieses Tool genauso auf wie jedes andere. Beliebte Optionen sind die DuckDuckGo-Such-API und SerpAPI für strukturierte Ergebnisse.

Wie stelle ich sicher, dass ein Agent nichts zerstört (z. B. Dateien löscht)?

Führen Sie Tools in einem Docker-Container mit strikten Dateisystem- und Netzwerkberechtigungen aus. Protokollieren Sie jeden Tool-Aufruf mit seinen Ein- und Ausgaben für Audit-Trails. Fügen Sie einen Bestätigungsschritt vor jeder destruktiven Aktion hinzu (Dateilöschung, E-Mail-Versand).

Kann ich mehrere Agenten parallel ausführen?

Ja. Nutzen Sie asynchrone Frameworks wie FastAPI, um gleichzeitige Agent-Anfragen zu verarbeiten. Jede Anfrage erhält ihren eigenen Konversationszustand. Beachten Sie, dass jeder parallele Agent seinen eigenen LLM-Inferenzthread benötigt, sodass VRAM begrenzt, wie viele Sie gleichzeitig ausführen können.

Welche minimale Hardware wird benötigt, um einen lokalen KI-Agenten auszuführen?

Ein 13B+-Parameter-Modell wird für zuverlässiges autonomes Denken empfohlen. Das erfordert mindestens 16 GB RAM und vorzugsweise eine GPU mit 8+ GB VRAM für ein quantisiertes 13B-Modell. Bei nur-CPU-Hardware sollten Sie 5–15 Sekunden pro Überlegungsschritt einplanen.

Wann sollte ich LangGraph statt einfacher LangChain verwenden?

Verwenden Sie LangGraph, wenn Ihr Workflow Schleifen, bedingte Verzweigungen oder Wiederherstellung von Tool-Fehlern erfordert. Einfaches LangChain funktioniert gut für lineare Pipelines (Schritt A → B → C) ohne Entscheidungspunkte. Wenn Ihr Agent nach einem gescheiterten Schritt erneut versuchen oder nachdenken muss, verarbeitet die Graph-Struktur von LangGraph dies elegant.

Ist LangGraph das gleiche wie LangChain?

Nein. LangChain ist ein universelles LLM-Toolkit zum Erstellen von Chains und Pipelines. LangGraph ist ein separates Framework, das auf LangChain aufgebaut ist und speziell für Agenten und zustandsbehaftete Workflows konzipiert ist – es fügt die Graph-Struktur (Knoten, Kanten, Zustand) hinzu, die für zuverlässige Überlegungsschleifen benötigt wird.

Wie viele Tools sollte ein lokaler Agent haben?

Begrenzen Sie Agenten auf 5–10 Tools. Mit zu vielen Optionen kämpft das LLM, das richtige Tool auszuwählen, und die Latenz pro Schritt nimmt zu. Beginnen Sie mit 3–5 Kern-Tools und erweitern Sie nur, wenn Sie eine spezifische Fähigkeitslücke treffen. Schreiben Sie jede Tool-Beschreibung in unter 50 Wörtern und geben Sie genau an, wann sie zu verwenden ist.

Muss ich bei der Verwendung von lokalen Agenten die DSGVO beachten?

Ja. Wenn Agenten personenbezogene Daten verarbeiten – Kundendaten, Dateien, rechtliche Dokumente – müssen Sie DSGVO-Artikel 25 (Datenschutz durch Technik) und Artikel 32 (Sicherheitsmaßnahmen) erfüllen. Lokale Agenten sind vorteilhaft, da sie Daten auf Ihrer eigenen Infrastruktur halten und keinen Datenverarbeitungsvertrag mit einem Cloud-Anbieter erfordern. Dokumentieren Sie Ihre Datensicherheitsmaßnahmen und halten Sie ein Verarbeitungsverzeichnis (VRVM) gemäß DSGVO Artikel 30.

Sind lokale KI-Agenten für deutsche Unternehmen geeignet?

Ja. Lokale Agenten erfüllen die Anforderungen des BSI-Grundschutz-Katalogs und sind ideal für Mittelstandsunternehmen, die Kontrolle über ihre KI-Systeme benötigen. Sie vermeiden Abhängigkeiten von US-Cloud-Anbietern und erfüllen Anforderungen der DSGVO und BSI-Standards. Für Finanz-, Gesundheits- oder Rechtsdaten sind lokale Agenten oft die Standardwahl in deutschen Unternehmensumgebungen.

Schnellübersicht

Lokale Agent-Latenz: ~3–5 Sekunden pro Überlegungsschritt (vs ~1 Sekunde für Cloud-Agenten)
Modellminimum: 13B+-Parameter für zuverlässige autonome mehrstufige Agenten
Tool-Grenze: 5–10 Tools pro Agent – darüber hinaus sinkt die Entscheidungsqualität
Max. Iterationen: Setzen Sie eine harte Grenze von 10–20 Schritten, um Endlosschleifen zu vermeiden
Hardware: 8+ GB VRAM für ein quantisiertes 7B-Modell; 16+ GB für 13B-Agenten
Überlegungslatenz auf CPU: 5–15 Sekunden pro Schritt bei 13B (Ollama Standard)

Regionale Gegebenheiten und Bereitstellungsbestimmungen

Lokale Agenten sind die Standardwahl für DSGVO-geregelte Workflows in der EU. Wenn Agenten personenbezogene Daten verarbeiten – Kundendatensätze, medizinische Dateien, rechtliche Dokumente – hält lokale Inferenz Daten in Ihrer eigenen Infrastruktur und erfüllt DSGVO-Artikel 25 und 32, ohne dass ein Datenverarbeitungsvertrag mit einem Cloud-Anbieter erforderlich ist.

In Japan schränkt das am 2022 geänderte Gesetz zum Schutz personenbezogener Informationen (APPI) die Übertragung personenbezogener Daten über Grenzen hinweg ein. Lokale Agenten, die lokal gehostet werden, erfüllen standardmäßig APPI-Anforderungen für Unternehmen, die empfindliche Kundendaten verarbeiten, ohne weiteren Regelungsaufwand.

In China erfordern das Datensicherheitsgesetz von 2021 und das Gesetz zum Schutz personenbezogener Informationen (PIPL), dass bestimmte Datenkategorien innerhalb der chinesischen Grenzen bleiben. Lokale Agenten mit Qwen3 oder anderen lokal gehosteten Modellen erfüllen diese Aufenthaltsanforderungen dort, wo Cloud-Inferenz nicht erfüllt würde.

Deutschland und Mittelstand: Das BSI-Grundschutz-Katalog-Framework empfiehlt lokale Verarbeitung für sensible Daten. Lokale Agenten ermöglichen es Mittelstandsunternehmen, KI-Systeme intern zu verwalten und die Anforderungen der Datenschutz-Grundverordnung einzuhalten, ohne von Dritten abhängig zu sein.

Quellen

LangGraph-Dokumentation — Offizielles Repository und Dokumentation für das LangGraph-Agent-Framework.
LangChain-Agents-Dokumentation — LangChains Agent-Modul-Leitfaden mit Tool-Integrationsmuster.
ReAct: Synergizing Reasoning and Acting in Language Models (Yao et al., 2022) — Grundlagenarbeit, die die in LangGraph-Agenten verwendete Observe–Reason–Act-Schleife einführt.

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Nutzen Sie PromptQuorum mit einem lokalen LLM, eigenen API-Schlüsseln oder beidem — Sie wählen das Backend.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs