Benchathon in München

Mensch vs. KI: Forschungsprojekt will Messlatte für KI-Einsatz definieren

Mitte März wollen mehrere Organisationen aus der deutschen Legal-Tech-Szene erstmals systematisch erfassen, wie gut Menschen juristische Aufgaben lösen – um damit die Leistung von KI-Sprachmodellen einordnen zu können. Die Ergebnisse könnten auch Folgen für Anwaltskanzleien, KI-Anbieter und die juristische Ausbildung haben.

Wer wissen will, ob eine juristische KI gute Arbeit leistet, braucht einen Vergleichswert, am besten einen menschlichen. Genau diesen Vergleichswert gibt es bislang nicht – zumindest nicht in belastbarer, wissenschaftlich nachvollziehbarer Form. Das Forschungsprojekt BenGER und ein sogenannter Benchathon – also eine Veranstaltung, bei der viele Teilnehmer zusammenkommen, um KI-Modelle anhand standardisierter Tests (Benchmarks) zu evaluieren, zu vergleichen und zu verbessern – sollen das ändern.

Warum menschliche Referenzwerte fehlen

Hintergrund ist das Forschungsprojekt BenGER an der Technischen Universität München (TUM). BenGER misst bereits, wie gut verschiedene KI-Modelle juristische Aufgaben nach unterschiedlichen Metriken lösen. Das Problem: Diese Ergebnisse lassen sich kaum einordnen: „Auch wenn BenGER uns sagt, wie gut Modelle juristische Aufgaben lösen, können wir diese Informationen nicht in Relation setzen, wenn wir nicht wissen, wie gut Menschen eigentlich dieselben Aufgaben lösen“, sagt Sebastian Nagl, Doktorand an der TUM und einer der Organisatoren, der als Anwalt auch einen juristischen Hintergrund hat. Ohne einen solchen menschlichen Ausgangswert, die ‚Human Baseline‘, bleiben die Benchmark-Ergebnisse der KI-Modelle abstrakt. Bei dem Benchathon sollen nun gut 30 Sprachmodelle auf dieser Basis systematisch bewertet und eingeordnet werden.

Gamification statt trockene Datenerhebung

Das Format dient zwar der wissenschaftlichen Erhebung, hat aber auch einen spielerischen Ansatz. „Ein wenig LAN-Party-Atmosphäre könnte es schon geben“, meint Nagl. Studierende, Mitglieder des Legal Tech Verbands und Anwälte aus der Praxis sollen an den Tagen juristische Fälle, ähnlich einer Examensklausur, lösen. Das Ganze findet an drei verschiedenen Orten und online statt. Dabei wird bewusst differenziert: „Die Teilnehmenden erhalten für jede Aufgabe entweder klassische Hilfsmittel oder zusätzlich Unterstützung durch eine KI“, erklärt Nagl. Die Sprachmodelle haben die juristischen Fälle bereits im Vorfeld gelöst. Die Ergebnisse der drei verschiedenen Bearbeitungsmöglichkeiten – ohne KI, mit KI, nur durch KI – werden am Ende gegeneinander gebenchmarkt. Für jede gelöste Aufgabe bekommen die menschlichen Teilnehmer Punkte, die in ein ‚Leaderboard‘ einfließen. Die Teilnehmenden können dabei selbst entscheiden, ob sie unter Pseudonym oder Klarnamen gelistet werden.

Um die Ergebnisse wissenschaftlich verwertbar zu machen, werden die Teilnehmenden laut Nagl vorab in einem sogenannten Pretest nach ihrem Kenntnisstand eingestuft. „Wir versuchen uns im Vorfeld ein Bild über die objektiven und subjektiven Fähigkeiten der Teilnehmenden zu machen“, erläutert er. Für die Auswertung würden dann Gruppen gebildet – von Laien ohne juristische Vorerfahrung bis hin zu den Ergebnissen erfahrener Fachleute.

Was passiert, wenn die KI besser ist als der Mensch?

Besonders brisant ist die Frage, was die Ergebnisse für die Branche bedeuten, sollten die KI-Modelle die menschlichen Teilnehmenden deutlich übertreffen. Nagl gibt sich hier bewusst zurückhaltend: „Ich genieße es als Doktorand, die technische Seite zu erforschen, weil ich diese Diskussion an der Stelle nicht aktiv führen muss.“ Persönlich sieht er allerdings Potenzial: Es müssten risikoarme Bereiche identifiziert werden, in denen Modelle guten Gewissens eingesetzt werden könnten – etwa als eine Art nullte Instanz. Die Ergebnisse könnten zumindest eine Grundlage liefern, auf der man argumentieren könne, ob bestimmte Aufgaben an ein Modell ausgelagert werden sollten.

Haftung, Compliance und die Frage nach dem richtigen Modell

Laut Nagl ergibt sich aus den Benchmark-Ergebnissen eine ganze Reihe an Folgefragen. Zunächst die praktische: Welche Modelle sind für welche juristischen Aufgaben geeignet? Dann die rechtliche, wenn eine Anwältin oder ein Anwalt eine KI zur Mandantenberatung einsetzt: Entsteht eine Haftung, falls ich eine KI nutze, die erkennbar schlecht ist für den Anwendungsfall? „Dahinter steht ein ganzer Rattenschwanz an Beratungen und Compliance-Fragen“, so Nagl. Die Benchmark-Daten könnten erstmals eine belastbare Grundlage schaffen, um solche Fragen nicht nur theoretisch, sondern evidenzbasiert zu diskutieren, erklärt Nagl.

Unbequeme Frage für spezialisierte KI-Anbieter

Die Ergebnisse könnten auch für Anbieter spezialisierter juristischer KI-Tools unangenehm werden. Denn wenn sich herausstellt, dass große General-Purpose-Modelle juristische Aufgaben ebenso gut oder besser lösen als spezialisierte Produkte, stellt sich die Frage nach deren Daseinsberechtigung. „Die großen Anbieter rechnen wahrscheinlich damit, dass kleinere und spezialisiertere Wettbewerber nicht mehr mit den Entwicklungen und den notwendigen Ressourcen Schritt halten können“, sagt Nagl. Genau deshalb brauche es belastbare Vergleichsdaten, auch um die Frage beantworten zu können: „Muss ich extra ein spezialisiertes KI-Tool kaufen oder liefert ein General-Purpose-Modell dieselben Ergebnisse?“ „Das Urteil kann ich nur fällen, wenn ich wirklich weiß, wie gut ein Modell ist – um hier für Klarheit zu sorgen, machen wir das ganze Projekt.“

Potenzial für die juristische Ausbildung

Neben der Markt- und Regulierungsperspektive sieht Nagl noch einen dritten Nutzen: Die für den Benchathon entwickelte Plattform eigne sich auch zur Lern- und Lehrunterstützung. „Studierende könnten ihre Klausuren über die Plattform schreiben und innerhalb von einer Minute eine Korrektur durch ein Sprachmodell erhalten – optional ergänzt durch eine menschliche Nachkorrektur“, so Nagl.

Hinter dem Benchathon steht eine Kooperation mehrerer Akteure: Neben Sebastian Nagl von der TUM sind Clemens Hufeld, Vice President Legal Data beim KI-Unternehmen Noxtua, sowie der Legal Tech Verband, das Liquid Legal Institut und die Organisation recode.law beteiligt. Die gesammelten Daten fließen anschließend als Vergleichsgrundlage in das BenGER-Projekt ein.

Legal Tech und Legal Operations

Gerne dürfen Sie unseren Artikel auf Ihrer Website und/oder auf Social Media zitieren und mit unserem Originaltext verlinken. Der Teaser auf Ihrer Seite darf die Überschrift und einen Absatz des Haupttextes enthalten. Weitere Rahmenbedingungen der Nutzung unserer Inhalte auf Ihrer Website entnehmen Sie bitte unseren Bedingungen für Nachdrucke und Lizenzierung.

Für die Übernahme von Artikeln in Pressespiegel erhalten Sie die erforderlichen Nutzungsrechte über die PMG Presse-Monitor GmbH, Berlin.
www.pressemonitor.de