ChatGPT & Co.
Brilliant, aber unzuverlässig: Das Halluzinationsproblem moderner KI-Modelle
ChatGPT wird immer schlauer, aber seine Halluzinationen werden immer schlimmer: So eine aktuelle Studie von OpenAI.
- ChatGPT wird schlauer, aber halluziniert mehr.
- Halluzinationsraten bei neuen Modellen alarmierend hoch.
- Nutzer sollten Antworten skeptisch hinterfragen.
- Report: Zeitenwende! 3 Uranaktien vor der Neubewertung

An ChatGPT werden immer mehr Fragen gestellt. Immer öfter kommt es aber vor, dass die KI falsche Antworten liefert. Das legt zumindest eine Untersuchung von OpenAI nahe, über die The New York Times aktuell berichtet.
Halluzinationen, also erfundene Fakten oder Unwahrheiten, begleiten KI-Chatbots seit ihrer Entstehung. Theoretisch sollten Verbesserungen der Modelle diese Fehler reduzieren – doch das Gegenteil scheint der Fall zu sein.
Die neuesten Flaggschiff-Modelle von OpenAI, GPT o3 und o4-mini, wurden mit dem Ziel entwickelt, menschliches Denkvermögen nachzuahmen. Anders als ihre Vorgänger, die primär auf flüssige Textgenerierung ausgerichtet waren, sollen o3 und o4-mini Aufgaben Schritt für Schritt durchdenken. Der aktuelle Bericht zeichnet ein deutlich ernüchterndes Bild.
So stellte OpenAI fest, dass das Modell GPT o3 in einem Benchmark-Test zu öffentlichen Persönlichkeiten in einem Drittel der Fälle halluzinierte – doppelt so häufig wie das Vorgängermodell o1. Das kompaktere o4-mini schnitt noch schlechter ab: Es halluzinierte bei 48 Prozent der Aufgaben.
Bei allgemeinen Wissensfragen im SimpleQA-Benchmark stiegen die Halluzinationsraten sogar auf 51 Prozent bei o3 und auf alarmierende 79 Prozent bei o4-mini. Das ist nicht nur ein technisches Rauschen – das ist ein echter Identitätsverlust. Von einem System, das mit "Reasoning-Fähigkeiten" beworben wird, würde man erwarten, dass es seine eigene Logik überprüft, bevor es Antworten erfindet. Doch genau das passiert nicht.
Eine Theorie, die derzeit in der KI-Forschung kursiert, lautet: Je mehr ein Modell versucht zu "denken", desto mehr Gelegenheiten hat es, sich zu verirren. Einfachere Modelle bleiben bei hochsicheren Vorhersagen – Reasoning-Modelle hingegen wagen sich in komplexere Pfade, verknüpfen lose Fakten und improvisieren. Und Improvisation rund um Fakten ist eben oft nichts anderes als Erfindung.
OpenAI teilte der Times mit, dass die Zunahme an Halluzinationen nicht zwingend auf die neuen Reasoning-Modelle zurückzuführen sei. Vielmehr seien diese einfach ausdrucksstärker und experimentierfreudiger. Da sie nicht nur Fakten wiedergeben, sondern auch spekulieren, verschwimmt bei ihnen leicht die Grenze zwischen Theorie und Fiktion. Leider sind viele dieser "Möglichkeiten" komplett losgelöst von der Realität.
Gerade das ist ein Problem für OpenAI – und auch für Konkurrenten wie Google oder Anthropic. Wenn ein Chatbot als Assistent oder Copilot beworben wird, erwarten Nutzer hilfreiche und keine gefährlichen Antworten.
Man kann nicht behaupten, Zeit zu sparen, wenn Nutzer jede Antwort mühsam überprüfen müssen. Obwohl die Modelle beeindruckend arbeiten.
Bis diese Probleme gelöst sind, gilt: Man sollte jede Antwort eines KI-Modells mit einer gehörigen Portion Skepsis begegnen. Denn der menschliche Faktor schleicht sich auch in die auf Pefektion getrimmte Maschine: Beinahe beruhigend.
Autor: Krischan Orth, wallstreetONLINE Redaktion
Die Alphabet Aktie wird zum Zeitpunkt der Veröffentlichung der Nachricht mit einem Plus von +4,18 % und einem Kurs von 141,4EUR auf Tradegate (12. Mai 2025, 14:21 Uhr) gehandelt.

Diskutieren Sie über die enthaltenen Werte