Skip to content
Alle Beiträge

anacision und Universität Würzburg erforschen Halluzinationserkennung in generativen Sprachmodellen

anacision und Universität Würzburg erforschen Halluzinationserkennung in Sprachmodellen

 

Halluzinationen in großen Sprachmodellen (LLMs) stellen eine große Herausforderung dar, besonders in Anwendungen, die hohe Genauigkeit und Zuverlässigkeit erfordern. Sie treten auf, wenn ein LLM syntaktisch und semantisch korrekte Aussagen generiert, diese aber nicht stimmen. Da sich Menschen inzwischen immer mehr auf die Antworten von LLMs verlassen, ist es wichtig, Halluzinationen frühzeitig zu erkennen, um sie gegebenenfalls zu filtern oder zu unterdrücken. Unsere neueste Forschungsarbeit, die auf der wissenschaftlichen Konferenz NAACL 2024 vorgestellt wurde, widmet sich genau dieser Aufgabe. In Zusammenarbeit mit Wissenschaftlern der Universität Würzburg haben wir einen intuitiven und flexiblen Ansatz zur Erkennung von Halluzinationen entwickelt. 

Die Methodik folgt dabei der Intuition, wie wir Menschen Aussagen anderer Personen überprüfen würden: Wir befragen verschiedene Expertinnen und Experten und gleichen ihre Antworten miteinander ab, abhängig von ihrer Sicherheit und ihren Hintergründen. Diese Intuition setzen wir mithilfe von LLMs um, indem wir auf ein Ensemble mehrerer „Experten“-LLMs setzen. Diese Experten bewerten unabhängig voneinander, ob eine gegebene LLM-Antwort halluziniert ist. Hierbei optimieren wir automatisch die Anfrage an den jeweiligen Experten, damit dieser bestmöglich in der Lage ist, die Anfrage zu beantworten. Durch die Analyse von Schlüsselwörtern, die eine positive oder negative Bewertung signalisieren, können wir die Wahrscheinlichkeit einer Halluzination bestimmen. 

Ein entscheidender Vorteil unserer Methode gegenüber anderen existierenden Methoden ist ihre Flexibilität. Unser Ansatz ist unabhängig vom LLM, welches die initiale Ausgabe produziert hat, und kann entsprechend für die Überprüfung von Aussagen beliebiger LLMs benutzt werden. Da außerdem auf ein explizites Training der Experten-LLMs verzichtet wird, sind diese flexibel austauschbar und erweiterbar, was bei der heutigen rasanten Entwicklung von neuen verbesserten LLMs einen enormen Vorteil bietet. 

Übrigens: Während in vielen Aufgaben für LLMs Modelle mit einer großen Zahl von Parametern bessere Ergebnisse erzielen, hatte das beste Experten-LLM in unseren Experimenten lediglich drei Milliarden Parameter. Damit war das LLM deutlich effizienter als aktuelle LLMs mit mehr als doppelt so vielen Parametern. Solche Erkenntnisse sind außerhalb der Forschung vor allem für Unternehmen relevant, die generative KI einsetzen, aber weder umfangreiche Hardwareressourcen aufbauen noch auf Clouddienste zurückgreifen wollen. Durch unsere Forschung und Expertise sind wir in der Lage, auch in solchen Situationen mehrwertstiftende, LLM-basierte KI-Lösungsansätze zu entwickeln. 

Für weiterführende Informationen finden Sie hier die veröffentlichte wissenschaftliche Ausarbeitung: https://aclanthology.org/2024.semeval-1.219/