KI-Zuverlässigkeit

KI-Konsens-Scoring: Halluzinationen über mehrere Modelle erkennen

Wenn fünf KI-Modelle unabhängig voneinander einer Aussage zustimmen, ist die Antwort deutlich zuverlässiger als wenn ein einzelnes Modell antwortet. Dies ist das Prinzip hinter KI-Konsens-Scoring.

Veröffentlicht 16. März 2026•11 Min. Lesezeit•By Hans Kuepper · PromptQuorum

Was ist KI-Konsens-Scoring?

KI-Konsens-Scoring ist eine Methode zur Bewertung der Zuverlässigkeit von KI-generierten Informationen, indem die Übereinstimmung mehrerer unabhängiger Sprachmodelle gemessen wird. Wenn Sie denselben Prompt an fünf oder mehr KI-Modelle senden und analysieren, wo ihre Antworten übereinstimmen und divergieren, erhalten Sie ein statistisches Signal darüber, welche Aussagen wahrscheinlich korrekt sind.

Das zugrunde liegende Prinzip stammt aus Ensemble-Methoden der Statistik: Unabhängige Quellen, die zum gleichen Schluss kommen, sind wahrscheinlicher korrekt als eine einzelne Quelle — selbst wenn diese einzelne Quelle sehr leistungsfähig ist.

Konsens-Scoring weist jeder Aussage in einem Satz von KI-Antworten ein Konfidenzniveau zu, basierend darauf, wie viele Modelle unabhängig voneinander zugestimmt haben. Hoher Konsens = hohe Zuverlässigkeit. Niedriger Konsens = genauer untersuchen.

Konsens-Scoring entfaltet die stärkste Wirkung in Kombination mit systematischer Prompt-Evaluation. Das Framework für Genauigkeits-, Konsistenz- und Instruction-Following-Metriken finden Sie unter [Wie man die Qualität von Prompts bewertet](https://www.promptquorum.com/prompt-engineering/how-to-evaluate-prompt-quality?lang=de).

Warum einzelne Modellantworten für wichtige Entscheidungen nicht vertrauenswürdig sind

Jedes große Sprachmodell halluziniert. GPT-4o, Claude, Gemini, Grok, Mistral — alle erfinden Fakten mit selbstbewusst klingender Sprache. Der Unterschied zwischen Modellen ist nicht ob sie halluzinieren, sondern welche Fakten sie falsch darstellen.

•Halluzinationsraten variieren von 3–7% für gut dokumentierte Bereiche bis zu 20–30% für Nischenthemen und aktuelle Ereignisse
•Modelle, die auf denselben Internetdaten trainiert wurden, teilen einige Halluzinationsmuster — aber jedes Modell hat auch einzigartige Fehlertypen
•Ein von GPT-4o halluzinierter Anspruch wird wahrscheinlich nicht von Claude auf dieselbe Weise unabhängig halluziniert — was den Modellvergleich zu einem starken Signal macht

Wie Konsens-Scoring funktioniert

Konsens-Scoring funktioniert in vier Phasen:

•Phase 1 — Versenden: Senden Sie einen identischen, optimierten Prompt gleichzeitig an mehrere KI-Modelle
•Phase 2 — Sammeln: Alle Antworten ohne Bearbeitung erfassen
•Phase 3 — Extrahieren: Jede Antwort in einzelne, unabhängig überprüfbare Aussagen zerlegen
•Phase 4 — Bewerten: Für jede extrahierte Aussage zählen, wie viele Modelle sie unabhängig genannt haben

Die Konsens-Konfidenzstufen

PromptQuorum ordnet Konsens-Scores fünf Konfidenzstufen zu:

Stufe	Übereinstimmung	Interpretation	Aktion
Voller Konsens	5 von 5 Modellen	Fast sichere Faktenaussage	Mit hoher Konfidenz akzeptieren
Starker Konsens	4 von 5 Modellen	Sehr zuverlässig, geringe Variation	Akzeptieren, abweichendes Modell notieren
Mehrheitskonsens	3 von 5 Modellen	Wahrscheinlich korrekt, etwas Unsicherheit	Mit Verifikationsvermerk akzeptieren
Schwacher Konsens	2 von 5 Modellen	Umstrittene oder mehrdeutige Aussage	Unabhängig überprüfen
Kein Konsens	1 von 5 Modellen	Mögliche Halluzination	Für manuelle Überprüfung markieren

Halluzinationserkennung durch modellübergreifende Analyse

Die Schlüsseleinsicht ist, dass KI-Modelle unabhängig voneinander halluzinieren. Jedes Modell hat seine eigene Trainingsverteilung und einzigartige Fehlertypen. Eine spezifische falsche Aussage — ein falsches Datum, eine erfundene Statistik — ist unwahrscheinlich, von fünf verschiedenen Modellen unabhängig generiert zu werden.

•Numerische Halluzinationen (falsche Daten, Statistiken) sind am einfachsten zu erkennen — Modelle divergieren stark bei erfundenen Zahlen
•Eigennamen-Halluzinationen werden erkannt, wenn mehrere Modelle bei der Zuordnung nicht übereinstimmen
•Beziehungs-Halluzinationen (falsche kausale Behauptungen) kommen ans Licht, wenn Modelle sich gegenseitig widersprechen

Ein reales Beispiel: Konsens-Scoring in der Praxis

Angenommen, Sie fragen fünf Modelle: "Was war die Marktkapitalisierung von OpenAI im Jahr 2024?"

Vier Modelle stimmen mit 80 Milliarden Dollar überein (Oktober 2024 Finanzierungsrunde). Ein Modell nennt 157 Milliarden Dollar. Das Konsens-Scoring zeigt sofort die Diskrepanz auf — das abweichende Modell verwechselte die Bewertung einer späteren Finanzierungsrunde.

Die 13 Quorum-Analysetypen in PromptQuorum

PromptQuorum implementiert Konsens-Scoring durch 13 unterschiedliche Analysetypen:

•Konsens-Zusammenfassung — extrahiert alle von Modellen vereinbarten Aussagen
•Gewichtete Zusammenführung — synthetisiert eine Best-of-all-Antwort, gewichtet nach Konfidenzscores
•Atomare Faktenextraktion — zerlegt Antworten in einzelne überprüfbare Aussagen
•Überlappungs-Mapping — identifiziert, welche Inhalte in den meisten Antworten erscheinen
•Widerspruchserkennung — markiert Punkte, an denen Modelle sich direkt widersprechen
•Konfidenz-Scoring — weist jeder Aussage einen Konfidenzwert zu
•Vollständigkeitsprüfung — identifiziert Informationen, die in einigen Modellen fehlen
•Halluzinationserkennung — markiert Aussagen, die nur in einem oder zwei Modellen erscheinen
•Redundanzelimination — entfernt wiederholte Informationen
•Beste Antwortauswahl — identifiziert die vollständigste und genaueste Modellantwort
•Multi-Modell-Ensemble — erstellt eine hybride Antwort aus den besten Elementen
•Kontrovers-Markierung — markiert Themen, bei denen Modelle konsistent nicht übereinstimmen
•Antwort-Ranking — ordnet Antworten von zuverlässigsten bis unzuverlässigsten

Wann Konsens-Scoring am wichtigsten ist

•Forschung und Faktenprüfung — wo eine einzige halluzinierte Statistik ein Argument entwerten kann
•Medizinische und rechtliche Informationen — wo Genauigkeit unverhandelbar ist
•Aktuelle Ereignisse — Modelle haben weniger zuverlässige Daten für Ereignisse nahe ihrem Wissens-Cutoff
•Technische Spezifikationen — Versionsnummern und API-Endpunkte ändern sich häufig
•Numerische Aussagen — Daten, Zahlen und Prozentsätze sind die häufigsten Halluzinationsvektoren

Wichtigste Erkenntnisse

•KI-Konsens-Scoring misst Zuverlässigkeit durch Vergleich der Übereinstimmung unabhängiger Modelle
•Kein einzelnes KI-Modell kann Halluzinationen eliminieren — modellübergreifende Verifikation ist die einzige skalierbare Zuverlässigkeitsschicht
•Aussagen in 5/5 Modellen sind fast sicher; Aussagen in 1/5 Modellen sind wahrscheinlich halluziniert
•Halluzinationserkennung funktioniert, weil Modelle unabhängig voneinander halluzinieren
•PromptQuorum implementiert Konsens-Scoring durch 13 Quorum-Analysetypen