Sprachbarrieren mit generativer KI überwinden: Wie Foley & Lardner mit Relativity aiR for Review mehrsprachige Dokumente überprüft hat
Foley & Lardner LLP (Foley) und Relativity begannen 2023 mit GPT-Produkten zu experimentieren, woraus sich die heute verfügbare „aiR”-Suite von GPT-basierten Tools entwickelte. Die Beteiligung und der Erfolg von Foley bei den frühen Experimenten ermutigten die Rechtsteams von Foley, neue Anwendungsmöglichkeiten für aiR zu testen, um zu sehen, wie es sich bewähren würde.
Ein solches Experiment war eine mehrsprachige (spanisch- und englischsprachige) interne Untersuchung. Traditionell werden bei einer Überprüfung in einer Fremdsprache zusätzliche Zeit und Geld für fließend sprechende Prüfer und Übersetzungen aufgewendet. Nur einer der Teamstrategen, die den Umfang der Untersuchung vorantrieben, sprach fließend Spanisch. Es war die ideale Situation, um die Fähigkeit von aiR zu testen, nicht nur zu übersetzen, sondern die Sprache auch gut genug zu analysieren und zu verstehen, um Unterstützung und Zitate für seine Empfehlungen zu generieren.
Der englischsprachige Fallstratege entwarf eine ausschließlich englischsprachige Eingabe in aiR for Review, um fünf Kernprobleme zu identifizieren. Die Ergebnisse waren insofern außergewöhnlich, als aiR in der Lage war, die Probleme zu identifizieren, die spanische Sprache zu verstehen und eine englischsprachige Ausgabe zu liefern. Es wurden Validierungstests zur Genauigkeit der Problemerkennung sowohl auf Datensatz- als auch auf Problemebene durchgeführt. Die Zitate wurden auch von den mehrsprachigen Anwälten von Foley validiert, um sicherzustellen, dass sie die Analyse stützten. Die Kosten- und Zeitersparnis gegenüber der Erstellung einer Problemanalyse und Übersetzung auf Datensatzebene vor aiR kann gar nicht hoch genug eingeschätzt werden.
Der Bedarf an Dokumentübersetzungen und der damit verbundene Zeit- und Kostenaufwand entfielen. So konnten alle Fallstrategen über Nacht die englischen Ergebnisse einsehen und schnell mit der Beratung des Kunden fortfahren.
Die Bedeutung einer schnellen Iteration
Die Festlegung geeigneter Prompt-Kriterien, also der Eingaben, die aiR for Review den für die Auswertung der Daten erforderlichen Kontext liefern, ist für eine erfolgreiche und genaue Ausgabe unerlässlich. Die für diese Analyse verwendeten Prompt-Kriterien wurden unter Verwendung eines iterativen Ansatzes entwickelt. Dieser iterative Ansatz ermöglichte es dem Überprüfungsteam, die ersten Prompt-Ergebnisse zu überprüfen und die Prompt-Kriterien anzupassen, um entweder Dokumente auf der Grundlage des anfänglichen Verständnisses der Angelegenheit korrekt zu kategorisieren oder den Prompt zu überarbeiten, um neue Informationen zu berücksichtigen, die bei der Überprüfung der Dokumente entdeckt wurden.
Zunächst basierten die anfänglichen Prompt-Kriterien auf Anweisungen, die den zweisprachigen Prüfern von den Fallstrategen gegeben worden waren. Bis zu diesem Zeitpunkt war bereits eine Überprüfung der Suchbegriffe in spanischer Sprache durchgeführt worden, und eine Handvoll dieser Materialien wurde für die Prompt-Tests verwendet. Konnte aiR das finden, was die Foley-Prüfer bereits wussten?
Diese ersten Kriterien wurden anhand von 50 zuvor identifizierten „heißen“ Dokumenten mit relevanten Themen-Tags getestet, um festzustellen, ob aiR for Review dieselben Themen im gesamten Datensatz identifizieren und entsprechende spanischsprachige Zitate liefern konnte. Die Ergebnisse wurden einer Qualitätskontrolle unterzogen, und die Prüfer gaben Feedback zu Dokumenten, die aiR als „grenzwertig“ identifiziert hatte. Auf der Grundlage des Feedbacks zur Qualitätskontrolle wurde die Eingabeaufforderung mit zusätzlichen Anweisungen zur Kategorisierung dieser grenzwertigen Dokumente überarbeitet. Eine weitere Überarbeitung der Eingabeaufforderung nach einer zusätzlichen manuellen Überprüfung relevanter Dokumente führte zu einer Verbesserung der Empfehlungen von grenzwertig zu relevant, als diese anhand einer Zufallsstichprobe von 100 neuen, nicht überprüften Dokumenten getestet wurden.
Der von Foley festgelegte Arbeitsablauf sah vor, dass alle grenzwertigen Dokumente einer manuellen Überprüfung unterzogen wurden.
Dieser Prozess zeigt, wie wichtig ein iterativer Ansatz für die Entwicklung von Prompt-Kriterien ist. Durch das Testen einer ersten Version des Prompts an einer kleinen Stichprobe konnte das Foley-Team die Interpretationen von aiR bewerten und die erforderlichen Eingaben verstehen, die zu genaueren Vorhersagen führen würden. Bei der Überprüfung der Stichprobe konnten die Prüfer die im Prompt bereitgestellten Informationen weiter verbessern. Diese Anpassungen des ursprünglichen Prompts verbesserten die Ergebnisse und schufen das nötige Vertrauen, um die Technologie auf einen größeren Datensatz anzuwenden.
aiR in die Tat umsetzen
Nachdem die Suchkriterien festgelegt worden waren, wurde aiR for Review auf eine Reihe von nicht überprüften Materialien angewendet, die den priorisierten Suchbegriffen entsprachen. Es wurden 2.292 Datensätze analysiert, von denen 589 als relevant für die Themen oder als grenzwertig eingestuft wurden. Weitere 385 Dokumente waren aufgrund von Formatbeschränkungen für die Analyse durch aiR for Review nicht geeignet. Zur Bewertung der Ergebnisse führten menschliche Prüfer eine Qualitätskontrolle der relevanten, grenzwertigen und nicht analysierten Datensätze durch (insgesamt 974 Dokumente).
Die Ergebnisse waren beeindruckend: 6 % (55) der Dokumente erhielten Feedback von den Gutachtern, wobei es sich überwiegend um Dokumente handelte, die von aiR als „grenzwertig” eingestuft worden waren. Nur zwei Dokumente wurden falsch bewertet; in diesen Fällen war aiR zu umfassend und interpretierte ein Dokument als relevant, obwohl es dies nicht war.
Insgesamt wurden weniger als 1 % der Empfehlungen von aiR im Rahmen des Qualitätskontrollprozesses von menschlichen Prüfern abgelehnt. Aufgrund dieser sehr guten Ergebnisse wurden keine zusätzlichen Anpassungen an den Prompt-Kriterien vorgenommen, und aiR wurde für weitere und umfangreichere Dokumentensätze eingesetzt.
Since the subjective review of aiR for Review’s performance was positive, Foley enlisted the help of Relativity’s data scientist to confirm the subjective results objectively. Foley’s bilingual subject-matter expert (SME) for the project reviewed aiR for Review’s results from samples sets of documents designed by Relativity’s Data Scientists. The SME was instructed to assess both (1) aiR for Review’s issue detection and (2) citation support for its conclusions. At the conclusion of the SME review, issue and citation validation both yielded a <1% error rate.
Die Untersuchung ist zum Zeitpunkt der Veröffentlichung dieses Artikels noch nicht abgeschlossen. Auf Grundlage dieser Ergebnisse setzt das Foley-Team weiterhin aiR for Review ein, um die Überprüfung relevanter Dokumente zu beschleunigen.
Sprachbarrieren mit generativer KI überwinden
aiR for Review zeigte eine bemerkenswerte Fähigkeit, spanisches Material zu analysieren und spanische Zitate zu identifizieren, während es gleichzeitig schnell und präzise fundierte Begründungen für seine Entscheidungen auf Englisch lieferte. Als ein mehrsprachiger Partner die Begründungen und Zitate auf ihre Richtigkeit überprüfte, wurden über 99 % der Begründungen als korrekt interpretiert und 89 % der Zitate als korrekte Untermauerung der Analyse bewertet.
Diese Funktion bietet enorme Möglichkeiten für Effizienzsteigerungen in mehrsprachigen Fällen. Neben einer schnelleren und genaueren Analyse kann aiR for Review Prüfern dabei helfen, Dokumente, deren Ausgangssprache erfahrenen Anwälten, Fachexperten und wichtigen Stakeholdern nicht geläufig ist, einfach zusammenzufassen und zu berichten. In komplexeren Fällen, in denen Fachexperten benötigt werden, können Kanzleien Personen aufgrund ihrer Fachkenntnisse einstellen, ohne sich um Sprachbarrieren sorgen zu müssen, und dann die Argumentation und Begründung von aiR for Review nutzen, um diesen Experten zu helfen, die Natur der Angelegenheit zu verstehen, selbst wenn sie mit der Sprache der Quelldokumente nicht vertraut sind.
Obwohl wir gerade erst damit beginnen, die Fähigkeit generativer KI zur sprachübergreifenden Arbeit zu erforschen, sind die ersten Ergebnisse vielversprechend, wenn es darum geht, mit generativer KI Zeit und Kosten bei der Überprüfung mehrsprachiger Dokumente zu sparen.
Wenn Sie Fragen zu aiR for Review oder zur Verwendung künstlicher Intelligenz durch Foley haben, wenden Sie sich bitte an die Autoren oder Ihren Anwalt bei Foley & Lardner.