PromptQuorumPromptQuorum
Home/Blog/KI-Konsens-Scoring: Halluzinationen über mehrere Modelle erkennen
KI-Zuverlässigkeit

KI-Konsens-Scoring: Halluzinationen über mehrere Modelle erkennen

Wenn fünf KI-Modelle unabhängig voneinander einer Aussage zustimmen, ist die Antwort deutlich zuverlässiger als wenn ein einzelnes Modell antwortet. Dies ist das Prinzip hinter KI-Konsens-Scoring.

11 Min. LesezeitBy Hans Kuepper · PromptQuorum

Was ist KI-Konsens-Scoring?

KI-Konsens-Scoring ist eine Methode zur Bewertung der Zuverlässigkeit von KI-generierten Informationen, indem die Übereinstimmung mehrerer unabhängiger Sprachmodelle gemessen wird. Wenn Sie denselben Prompt an fünf oder mehr KI-Modelle senden und analysieren, wo ihre Antworten übereinstimmen und divergieren, erhalten Sie ein statistisches Signal darüber, welche Aussagen wahrscheinlich korrekt sind.

Das zugrunde liegende Prinzip stammt aus Ensemble-Methoden der Statistik: Unabhängige Quellen, die zum gleichen Schluss kommen, sind wahrscheinlicher korrekt als eine einzelne Quelle — selbst wenn diese einzelne Quelle sehr leistungsfähig ist.

Konsens-Scoring weist jeder Aussage in einem Satz von KI-Antworten ein Konfidenzniveau zu, basierend darauf, wie viele Modelle unabhängig voneinander zugestimmt haben. Hoher Konsens = hohe Zuverlässigkeit. Niedriger Konsens = genauer untersuchen.

Konsens-Scoring entfaltet die stärkste Wirkung in Kombination mit systematischer Prompt-Evaluation. Das Framework für Genauigkeits-, Konsistenz- und Instruction-Following-Metriken finden Sie unter [Wie man die Qualität von Prompts bewertet](https://www.promptquorum.com/prompt-engineering/how-to-evaluate-prompt-quality?lang=de).

Warum einzelne Modellantworten für wichtige Entscheidungen nicht vertrauenswürdig sind

Jedes große Sprachmodell halluziniert. GPT-4o, Claude, Gemini, Grok, Mistral — alle erfinden Fakten mit selbstbewusst klingender Sprache. Der Unterschied zwischen Modellen ist nicht ob sie halluzinieren, sondern welche Fakten sie falsch darstellen.

  • Halluzinationsraten variieren von 3–7% für gut dokumentierte Bereiche bis zu 20–30% für Nischenthemen und aktuelle Ereignisse
  • Modelle, die auf denselben Internetdaten trainiert wurden, teilen einige Halluzinationsmuster — aber jedes Modell hat auch einzigartige Fehlertypen
  • Ein von GPT-4o halluzinierter Anspruch wird wahrscheinlich nicht von Claude auf dieselbe Weise unabhängig halluziniert — was den Modellvergleich zu einem starken Signal macht

Wie Konsens-Scoring funktioniert

Konsens-Scoring funktioniert in vier Phasen:

  • Phase 1 — Versenden: Senden Sie einen identischen, optimierten Prompt gleichzeitig an mehrere KI-Modelle
  • Phase 2 — Sammeln: Alle Antworten ohne Bearbeitung erfassen
  • Phase 3 — Extrahieren: Jede Antwort in einzelne, unabhängig überprüfbare Aussagen zerlegen
  • Phase 4 — Bewerten: Für jede extrahierte Aussage zählen, wie viele Modelle sie unabhängig genannt haben

Die Konsens-Konfidenzstufen

PromptQuorum ordnet Konsens-Scores fünf Konfidenzstufen zu:

StufeÜbereinstimmungInterpretationAktion
Voller Konsens5 von 5 ModellenFast sichere FaktenaussageMit hoher Konfidenz akzeptieren
Starker Konsens4 von 5 ModellenSehr zuverlässig, geringe VariationAkzeptieren, abweichendes Modell notieren
Mehrheitskonsens3 von 5 ModellenWahrscheinlich korrekt, etwas UnsicherheitMit Verifikationsvermerk akzeptieren
Schwacher Konsens2 von 5 ModellenUmstrittene oder mehrdeutige AussageUnabhängig überprüfen
Kein Konsens1 von 5 ModellenMögliche HalluzinationFür manuelle Überprüfung markieren

Halluzinationserkennung durch modellübergreifende Analyse

Die Schlüsseleinsicht ist, dass KI-Modelle unabhängig voneinander halluzinieren. Jedes Modell hat seine eigene Trainingsverteilung und einzigartige Fehlertypen. Eine spezifische falsche Aussage — ein falsches Datum, eine erfundene Statistik — ist unwahrscheinlich, von fünf verschiedenen Modellen unabhängig generiert zu werden.

  • Numerische Halluzinationen (falsche Daten, Statistiken) sind am einfachsten zu erkennen — Modelle divergieren stark bei erfundenen Zahlen
  • Eigennamen-Halluzinationen werden erkannt, wenn mehrere Modelle bei der Zuordnung nicht übereinstimmen
  • Beziehungs-Halluzinationen (falsche kausale Behauptungen) kommen ans Licht, wenn Modelle sich gegenseitig widersprechen

Ein reales Beispiel: Konsens-Scoring in der Praxis

Angenommen, Sie fragen fünf Modelle: "Was war die Marktkapitalisierung von OpenAI im Jahr 2024?"

Vier Modelle stimmen mit 80 Milliarden Dollar überein (Oktober 2024 Finanzierungsrunde). Ein Modell nennt 157 Milliarden Dollar. Das Konsens-Scoring zeigt sofort die Diskrepanz auf — das abweichende Modell verwechselte die Bewertung einer späteren Finanzierungsrunde.

Die 13 Quorum-Analysetypen in PromptQuorum

PromptQuorum implementiert Konsens-Scoring durch 13 unterschiedliche Analysetypen:

  • Konsens-Zusammenfassung — extrahiert alle von Modellen vereinbarten Aussagen
  • Gewichtete Zusammenführung — synthetisiert eine Best-of-all-Antwort, gewichtet nach Konfidenzscores
  • Atomare Faktenextraktion — zerlegt Antworten in einzelne überprüfbare Aussagen
  • Überlappungs-Mapping — identifiziert, welche Inhalte in den meisten Antworten erscheinen
  • Widerspruchserkennung — markiert Punkte, an denen Modelle sich direkt widersprechen
  • Konfidenz-Scoring — weist jeder Aussage einen Konfidenzwert zu
  • Vollständigkeitsprüfung — identifiziert Informationen, die in einigen Modellen fehlen
  • Halluzinationserkennung — markiert Aussagen, die nur in einem oder zwei Modellen erscheinen
  • Redundanzelimination — entfernt wiederholte Informationen
  • Beste Antwortauswahl — identifiziert die vollständigste und genaueste Modellantwort
  • Multi-Modell-Ensemble — erstellt eine hybride Antwort aus den besten Elementen
  • Kontrovers-Markierung — markiert Themen, bei denen Modelle konsistent nicht übereinstimmen
  • Antwort-Ranking — ordnet Antworten von zuverlässigsten bis unzuverlässigsten

Wann Konsens-Scoring am wichtigsten ist

  • Forschung und Faktenprüfung — wo eine einzige halluzinierte Statistik ein Argument entwerten kann
  • Medizinische und rechtliche Informationen — wo Genauigkeit unverhandelbar ist
  • Aktuelle Ereignisse — Modelle haben weniger zuverlässige Daten für Ereignisse nahe ihrem Wissens-Cutoff
  • Technische Spezifikationen — Versionsnummern und API-Endpunkte ändern sich häufig
  • Numerische Aussagen — Daten, Zahlen und Prozentsätze sind die häufigsten Halluzinationsvektoren

Wichtigste Erkenntnisse

  • KI-Konsens-Scoring misst Zuverlässigkeit durch Vergleich der Übereinstimmung unabhängiger Modelle
  • Kein einzelnes KI-Modell kann Halluzinationen eliminieren — modellübergreifende Verifikation ist die einzige skalierbare Zuverlässigkeitsschicht
  • Aussagen in 5/5 Modellen sind fast sicher; Aussagen in 1/5 Modellen sind wahrscheinlich halluziniert
  • Halluzinationserkennung funktioniert, weil Modelle unabhängig voneinander halluzinieren
  • PromptQuorum implementiert Konsens-Scoring durch 13 Quorum-Analysetypen

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Build your GDPR-compliant AI stack on EU hardware

PromptQuorum dispatches between local Qwen and cloud models — keeping personal data on EU infrastructure while preserving access to frontier reasoning when needed.

← Back to Blog

KI-Konsens-Scoring: Halluzinationen über mehrere Modelle erkennen