Stanford-Studie

Sprachmodelle halluzinieren „alarmierend“ viel bei rechtlichen Anfragen

Bekannte Sprachmodelle wie ChatGPT, Claude, LLama oder PaLM teilen ein entscheidendes Problem: Viele ihrer Ergebnisse sind schlicht falsch. Forscherinnen und Forscher der Stanford University haben nun untersucht, wie verbreitet dieses als ‚Halluzinieren‘ bezeichnete Verhalten bei rechtlichen Anfragen ist.

Teilen Sie unseren Beitrag

Für die Studie werteten sie mehr als 200.000 Abfragen der Large Language Modelle (LLM) GPT 3.5, Llama 2 und PaLM 2 aus. Diese reichten von einfachen Fragen – wie etwa nach dem Verfasser eines bestimmten Gutachtens – bis hin zu komplexeren Aufgaben, zum Beispiel, ob zwei Fälle in einem Spannungsverhältnis zueinander stehen. Das Ergebnis: Je nach Modell lagen die Halluzinationsraten bei 69 bis 88 Prozent.

Unter anderem fand das Stanford-Team heraus, dass sich die Leistung der Modelle verschlechtert, wenn es um komplexere Aufgaben geht, die ein differenziertes Verständnis von Rechtsfragen oder die Auslegung von Rechtstexten erfordern. Bei einer Aufgabe, bei der der Zusammenhang zwischen zwei Präzedenzfällen ermittelt werden soll, schneiden die meisten LLM der Studie zufolge nicht besser ab als durch Raten. Bei der Beantwortung von Fragen zum Kernurteil oder zur Rechtsprechung eines Gerichts halluzinieren die Modelle in mindestens 75 Prozent der Fälle.

Unterschiede je nach Gericht und Urteilen

Die Qualität der Ergebnisse unterschied sich zudem je nach Gericht und Urteilen. So kam es bei Urteilen unter anderem der District Courts häufiger zu Halluzinationen als bei höheren Gerichten, wie des Surpreme Court. Zudem schnitten die LLM bei prominenteren Fällen tendenziell besser ab als bei weniger bekannten. Auch die Aktualität der Urteile wirkte sich auf die Qualität der Ergebnisse aus.

Eine weitere Gefahr, die die Forscherinnen und Forscher aufdeckten, ist die Anfälligkeit der Modelle für „kontrafaktische Voreingenommenheit“. Das heißt, sie tendieren dazu, eine Prämisse in einer Abfrage als wahr anzunehmen, auch wenn sie eigentlich falsch ist.

Vertrauen? Fehlanzeige!

Die Auswirkungen bezeichnet das Stanford-Team als „gravierend“: „Die Ergebnisse deuten darauf hin, dass die derzeitigen Beschränkungen der LLM das Risiko bergen, bestehende rechtliche Ungleichheiten weiter zu vertiefen, anstatt sie zu mildern.“ Lokalisierte Rechtsinformationen, Korrektur bei fehlgeleiteten Anfragen und ein angemessenes Maß an Vertrauen: All dies könnten die Modelle derzeit nicht leisten.

Neben der Bekämpfung von Halluzinationen durch die Technologiefirmen hinter den Modellen erfordere eine verantwortungsvolle Integration von KI in die Rechtspraxis „mehr Erprobung, Überwachung und ein menschliches Verständnis der KI-Fähigkeiten und -Grenzen“.

Artikel teilen

Gerne dürfen Sie unseren Artikel auf Ihrer Website und/oder auf Social Media zitieren und mit unserem Originaltext verlinken. Der Teaser auf Ihrer Seite darf die Überschrift und einen Absatz des Haupttextes enthalten. Weitere Rahmenbedingungen der Nutzung unserer Inhalte auf Ihrer Website entnehmen Sie bitte unseren Bedingungen für Nachdrucke und Lizenzierung.

Für die Übernahme von Artikeln in Pressespiegel erhalten Sie die erforderlichen Nutzungsrechte über die PMG Presse-Monitor GmbH, Berlin.
www.pressemonitor.de

Lesen sie mehr zum Thema