Für die Studie werteten sie mehr als 200.000 Abfragen der Large Language Modelle (LLM) GPT 3.5, Llama 2 und PaLM 2 aus. Diese reichten von einfachen Fragen – wie etwa nach dem Verfasser eines bestimmten Gutachtens – bis hin zu komplexeren Aufgaben, zum Beispiel, ob zwei Fälle in einem Spannungsverhältnis zueinander stehen. Das Ergebnis: Je nach Modell lagen die Halluzinationsraten bei 69 bis 88 Prozent.
Unter anderem fand das Stanford-Team heraus, dass sich die Leistung der Modelle verschlechtert, wenn es um komplexere Aufgaben geht, die ein differenziertes Verständnis von Rechtsfragen oder die Auslegung von Rechtstexten erfordern. Bei einer Aufgabe, bei der der Zusammenhang zwischen zwei Präzedenzfällen ermittelt werden soll, schneiden die meisten LLM der Studie zufolge nicht besser ab als durch Raten. Bei der Beantwortung von Fragen zum Kernurteil oder zur Rechtsprechung eines Gerichts halluzinieren die Modelle in mindestens 75 Prozent der Fälle.
Unterschiede je nach Gericht und Urteilen
Die Qualität der Ergebnisse unterschied sich zudem je nach Gericht und Urteilen. So kam es bei Urteilen unter anderem der District Courts häufiger zu Halluzinationen als bei höheren Gerichten, wie des Surpreme Court. Zudem schnitten die LLM bei prominenteren Fällen tendenziell besser ab als bei weniger bekannten. Auch die Aktualität der Urteile wirkte sich auf die Qualität der Ergebnisse aus.
Eine weitere Gefahr, die die Forscherinnen und Forscher aufdeckten, ist die Anfälligkeit der Modelle für „kontrafaktische Voreingenommenheit“. Das heißt, sie tendieren dazu, eine Prämisse in einer Abfrage als wahr anzunehmen, auch wenn sie eigentlich falsch ist.
Vertrauen? Fehlanzeige!
Die Auswirkungen bezeichnet das Stanford-Team als „gravierend“: „Die Ergebnisse deuten darauf hin, dass die derzeitigen Beschränkungen der LLM das Risiko bergen, bestehende rechtliche Ungleichheiten weiter zu vertiefen, anstatt sie zu mildern.“ Lokalisierte Rechtsinformationen, Korrektur bei fehlgeleiteten Anfragen und ein angemessenes Maß an Vertrauen: All dies könnten die Modelle derzeit nicht leisten.
Neben der Bekämpfung von Halluzinationen durch die Technologiefirmen hinter den Modellen erfordere eine verantwortungsvolle Integration von KI in die Rechtspraxis „mehr Erprobung, Überwachung und ein menschliches Verständnis der KI-Fähigkeiten und -Grenzen“.