Stanford-Studie

Sprachmodelle halluzinieren „alarmierend“ viel bei rechtlichen Anfragen

Bekannte Sprachmodelle wie ChatGPT, Claude, LLama oder PaLM teilen ein entscheidendes Problem: Viele ihrer Ergebnisse sind schlicht falsch. Forscherinnen und Forscher der Stanford University haben nun untersucht, wie verbreitet dieses als ‚Halluzinieren‘ bezeichnete Verhalten bei rechtlichen Anfragen ist.

Für die Studie werteten sie mehr als 200.000 Abfragen der Large Language Modelle (LLM) GPT 3.5, Llama 2 und PaLM 2 aus. Diese reichten von einfachen Fragen – wie etwa nach dem Verfasser eines bestimmten Gutachtens – bis hin zu komplexeren Aufgaben, zum Beispiel, ob zwei Fälle in einem Spannungsverhältnis zueinander stehen. Das Ergebnis: Je nach Modell lagen die Halluzinationsraten bei 69 bis 88 Prozent.

Unter anderem fand das Stanford-Team heraus, dass sich die Leistung der Modelle verschlechtert, wenn es um komplexere Aufgaben geht, die ein differenziertes Verständnis von Rechtsfragen oder die Auslegung von Rechtstexten erfordern. Bei einer Aufgabe, bei der der Zusammenhang zwischen zwei Präzedenzfällen ermittelt werden soll, schneiden die meisten LLM der Studie zufolge nicht besser ab als durch Raten. Bei der Beantwortung von Fragen zum Kernurteil oder zur Rechtsprechung eines Gerichts halluzinieren die Modelle in mindestens 75 Prozent der Fälle.

Unterschiede je nach Gericht und Urteilen

Die Qualität der Ergebnisse unterschied sich zudem je nach Gericht und Urteilen. So kam es bei Urteilen unter anderem der District Courts häufiger zu Halluzinationen als bei höheren Gerichten, wie des Surpreme Court. Zudem schnitten die LLM bei prominenteren Fällen tendenziell besser ab als bei weniger bekannten. Auch die Aktualität der Urteile wirkte sich auf die Qualität der Ergebnisse aus.

Volljurist:in / Referent:in (m/w/d) Prozessführung / Litigation

Volljurist:in / Referent:in (m/w/d) für die Abteilung Prozessführung / Litigation, Wiesbaden
Rechtsanwalt (m/w/d) Sanierungs- und Insolvenzrecht in Hamburg

Möhrle Happ Luther, Hamburg
Rechtsanwalt / Syndikusrechtsanwalt Arbeitsrecht (m/w/d)

ifp – Institut für Personal- und Unternehmensberatung, Berlin / Halle
Kommen Sie zur zweitgrößten Sparkasse Bayerns!

Kreissparkasse München Starnberg Ebersberg, München
Legal Counsel / Syndikusrechtsanwalt (m/w/d) Vollzeit · Köln

Flossbach von Storch SE, Köln
Zwei Volljuristinnen / Volljuristen (m/w/d)

Deutsche Bundesbank, 60431 Frankfurt

Eine weitere Gefahr, die die Forscherinnen und Forscher aufdeckten, ist die Anfälligkeit der Modelle für „kontrafaktische Voreingenommenheit“. Das heißt, sie tendieren dazu, eine Prämisse in einer Abfrage als wahr anzunehmen, auch wenn sie eigentlich falsch ist.

Vertrauen? Fehlanzeige!

Die Auswirkungen bezeichnet das Stanford-Team als „gravierend“: „Die Ergebnisse deuten darauf hin, dass die derzeitigen Beschränkungen der LLM das Risiko bergen, bestehende rechtliche Ungleichheiten weiter zu vertiefen, anstatt sie zu mildern.“ Lokalisierte Rechtsinformationen, Korrektur bei fehlgeleiteten Anfragen und ein angemessenes Maß an Vertrauen: All dies könnten die Modelle derzeit nicht leisten.

Neben der Bekämpfung von Halluzinationen durch die Technologiefirmen hinter den Modellen erfordere eine verantwortungsvolle Integration von KI in die Rechtspraxis „mehr Erprobung, Überwachung und ein menschliches Verständnis der KI-Fähigkeiten und -Grenzen“.

Legal Tech und Legal Operations

Gerne dürfen Sie unseren Artikel auf Ihrer Website und/oder auf Social Media zitieren und mit unserem Originaltext verlinken. Der Teaser auf Ihrer Seite darf die Überschrift und einen Absatz des Haupttextes enthalten. Weitere Rahmenbedingungen der Nutzung unserer Inhalte auf Ihrer Website entnehmen Sie bitte unseren Bedingungen für Nachdrucke und Lizenzierung.

Für die Übernahme von Artikeln in Pressespiegel erhalten Sie die erforderlichen Nutzungsrechte über die PMG Presse-Monitor GmbH, Berlin.
www.pressemonitor.de

Sprachmodelle halluzinieren „alarmierend“ viel bei rechtlichen Anfragen

Unterschiede je nach Gericht und Urteilen

Vertrauen? Fehlanzeige!

Wie weit sind Kanzleien beim Thema künstliche Intelligenz?

Das erwarten Inhouse-Juristen von der KI – und von ihren Beratern

KI zündet (endlich) den Digitalisierungs-Turbo

KI-Spezialist Aleph Alpha sammelt mit PwC Legal über 500 Millionen Dollar ein