Die Autoren dieses Artikels haben einen Benchmark mit langen, offenen Fragen und Multiple-Choice-Fragen erstellt, um die Leistung einer Reihe verschiedener LLMs in Bezug auf juristische Argumentation zu bewerten. Juristische Argumentation erfordert die Anwendung deduktiver und induktiver Logik auf komplexe Szenarien, oft mit undefinierten Parametern. Ihre Ergebnisse zeigen, dass diese Modelle immer noch „mit offenen Fragen zu kämpfen haben, die eine strukturierte, mehrstufige juristische Argumentation erfordern“.
Die juristische Argumentation ist ein kritischer Bereich für große Sprachmodelle (LLMs) im Speziellen und für künstliche Intelligenz (KI) im Allgemeinen, der spezialisiertes Fachwissen und fortgeschrittene Argumentationsfähigkeiten wie die Interpretation von Präzedenzfällen, die Analyse von Gesetzen und juristische Schlussfolgerungen erfordert. Trotz Fortschritten im Bereich der allgemeinen Argumentation bleibt die juristische Argumentation schwierig und wird in der NLP-Forschung nur unzureichend bewertet. Darüber hinaus ist der juristische Bereich von Natur aus mit hohen Risiken verbunden, und wenn die Fähigkeiten und Grenzen von Modellen nicht gründlich untersucht werden, kann dies zu schwerwiegenden Konsequenzen in der Praxis führen ...
Referenzierten Artikel anzeigen
Unsere Analyse zeigt erhebliche Schwankungen und Einschränkungen in den Fähigkeiten von LLMs bei der Bearbeitung von MCQs und insbesondere bei komplexen offenen Fragen; insbesondere führt eine Erhöhung der Anzahl der MCQ-Optionen zu einer konsistenten Verringerung der Modellgenauigkeit. Unser Bewertungsrahmen bietet einen skalierbaren Ansatz zur Beurteilung der Qualität des juristischen Denkens über einfache Genauigkeitsmetriken hinaus und erleichtert damit
zukünftige Forschungen, die darauf abzielen, die Zuverlässigkeit und Robustheit von LLMs bei anspruchsvollen juristischen Aufgaben zu verbessern.
