Taalbarrières doorbreken met generatieve AI: hoe Foley & Lardner meertalige documenten beoordeelde met Relativity aiR for Review
Foley & Lardner LLP (Foley) en Relativity begonnen in 2023 te experimenteren met GPT-producten, wat uitgroeide tot de "aiR"-suite van GPT-gebaseerde tools die momenteel beschikbaar is. De deelname en het succes van Foley bij de eerste experimenten moedigden de juridische teams van Foley aan om nieuwe toepassingen van aiR te testen om te zien hoe het zou presteren.
Een van die experimenten was een meertalig (Spaans en Engels) intern onderzoek. Traditioneel wordt er bij een beoordeling in een vreemde taal extra tijd en geld besteed aan vloeiende beoordelaars en vertalingen. Slechts één van de teamstrategen die de reikwijdte van het onderzoek bepaalden, sprak vloeiend Spaans. Het was de ideale situatie om het vermogen van aiR te testen om niet alleen te vertalen, maar ook de taal goed genoeg te analyseren en te begrijpen om ondersteuning en citaten voor zijn aanbevelingen te genereren.
De Engelstalige casestrateeg stelde een Engelstalige prompt op in aiR for Review om vijf kernproblemen te identificeren. De resultaten waren buitengewoon, omdat aiR in staat was om de problemen te identificeren, de Spaanse taal te begrijpen en Engelstalige output te leveren. Er werden validatietests uitgevoerd op de nauwkeurigheid van de probleemdetectie op zowel record- als probleemniveau. De citaten werden ook gevalideerd door de meertalige advocaten van Foley om ervoor te zorgen dat ze de analyse ondersteunden. De kosten en tijd die dit bespaarde ten opzichte van het genereren van een analyse en vertaling op recordniveau vóór aiR, kunnen niet worden overschat.
De noodzaak van documentvertaling en de tijd en kosten die daarmee gepaard gingen, werden geëlimineerd. Hierdoor konden alle casestrategen 's nachts de Engelse resultaten bekijken en snel overgaan tot het adviseren van de cliënt.
Het belang van snelle iteratie
Het vaststellen van passende promptcriteria, de inputs die aiR for Review de context geven die het nodig heeft om gegevens te evalueren, is essentieel voor een succesvolle en nauwkeurige output. De promptcriteria die voor deze analyse zijn gebruikt, zijn ontwikkeld met behulp van een iteratieve aanpak. Deze iteratieve aanpak stelde het beoordelingsteam in staat om de eerste promptresultaten te beoordelen en de promptcriteria aan te passen om documenten correct te categoriseren op basis van het eerste begrip van de materie, of om de prompt te herzien om rekening te houden met nieuwe informatie die tijdens het beoordelen van de documenten aan het licht kwam.
Ten eerste waren de oorspronkelijke promptcriteria gebaseerd op instructies die door de casestrategen aan de tweetalige beoordelaars waren gegeven. Tot dan toe was er al wat onderzoek gedaan naar Spaanstalige zoektermen, en een handvol van die materialen werd gebruikt voor het prompttesten. Kon aiR vinden wat de beoordelaars van Foley al wisten?
Deze eerste criteria werden getest op 50 eerder geïdentificeerde 'belangrijke' documenten met relevante issue-tags om te bepalen of aiR for Review dezelfde issues in de steekproefset kon identificeren en op passende wijze Spaanstalige citaten kon verstrekken. De resultaten werden gecontroleerd op kwaliteit en beoordelaars gaven feedback over documenten die aiR als 'grensgevallen' had geïdentificeerd. Op basis van de feedback over de kwaliteitscontrole werd de prompt herzien met aanvullende instructies over hoe deze grensgevallen moesten worden gecategoriseerd. Een verdere herziening van de prompt na aanvullende menselijke beoordeling van relevante documenten resulteerde in een verbetering van de aanbevelingen van grensgevallen naar relevant, toen deze werden getest met een willekeurige steekproef van 100 nieuwe, niet-beoordeelde documenten.
De workflow die Foley instelde, was om elk twijfelachtig document door mensen te laten beoordelen.
Dit proces toont het belang aan van een iteratieve aanpak bij het ontwikkelen van promptcriteria. Door een eerste versie van de prompt op een kleine steekproef te testen, kon het Foley-team de interpretaties van aiR evalueren en inzicht krijgen in de benodigde input voor nauwkeurigere voorspellingen. Tijdens het beoordelen van de steekproef konden de beoordelaars de informatie in de prompt verder verbeteren. Deze aanpassingen aan de oorspronkelijke prompt leidden tot betere resultaten en zorgden voor het nodige vertrouwen om de technologie op een bredere dataset toe te passen.
aiR in actie brengen
Nadat de criteria waren vastgesteld, werd aiR for Review uitgevoerd op een reeks niet-beoordeeld materiaal dat overeenkwam met geprioriteerde zoektermen. Er werden 2.292 records geanalyseerd, waarvan er 589 relevant of twijfelachtig werden bevonden. Nog eens 385 ontvangen documenten waren vanwege formaatbeperkingen niet geschikt voor analyse door aiR for Review. Om de output te beoordelen, voerden menselijke beoordelaars een kwaliteitscontrole uit op de relevante, twijfelachtige en niet-geanalyseerde records (in totaal 974 documenten).
De resultaten waren indrukwekkend: 6% (55) van de documenten kreeg feedback van beoordelaars, waarvan het overgrote deel documenten waren die aiR als 'grensgevallen' had aangemerkt. Slechts twee documenten werden onjuist beoordeeld; in die gevallen was aiR te ruimhartig en interpreteerde het een document als relevant terwijl dat niet het geval was.
In totaal werd minder dan 1% van de aanbevelingen van aiR door menselijke beoordelaars in het kwaliteitscontroleproces afgewezen. Op basis van deze zeer sterke resultaten werden geen aanvullende aanpassingen aangebracht in de promptcriteria en werd aiR gebruikt voor aanvullende en grotere sets documenten.
Since the subjective review of aiR for Review’s performance was positive, Foley enlisted the help of Relativity’s data scientist to confirm the subjective results objectively. Foley’s bilingual subject-matter expert (SME) for the project reviewed aiR for Review’s results from samples sets of documents designed by Relativity’s Data Scientists. The SME was instructed to assess both (1) aiR for Review’s issue detection and (2) citation support for its conclusions. At the conclusion of the SME review, issue and citation validation both yielded a <1% error rate.
Het onderzoek loopt nog op het moment dat dit artikel wordt gepubliceerd, en op basis van deze resultaten is het team van Foley aiR for Review blijven gebruiken om de beoordeling van relevante documenten te versnellen.
Taalbarrières doorbreken met generatieve AI
aiR for Review toonde een opmerkelijk vermogen om Spaans materiaal te analyseren en Spaanse citaten te identificeren, terwijl het tegelijkertijd snel en nauwkeurig een gedegen onderbouwing gaf voor zijn beslissingen in het Engels. Toen een meertalige partner de onderbouwing en citaten op juistheid controleerde, bleek meer dan 99% van de onderbouwingen correct te zijn geïnterpreteerd en bleek 89% van de citaten de analyse correct te ondersteunen.
Deze mogelijkheid biedt enorme kansen voor efficiëntie in meertalige zaken. Naast een snellere en nauwkeurigere analyse kan aiR for Review beoordelaars helpen om eenvoudig documenten samen te vatten en te rapporteren waarvan de brontaal niet wordt begrepen door ervaren advocaten, materiedeskundigen en belangrijke belanghebbenden. In complexere zaken, waar materiedeskundigen nodig zijn, kunnen bedrijven mensen inhuren op basis van hun expertise zonder zich zorgen te maken over taalbarrières. Vervolgens kunnen ze de redenering en motivering van aiR for Review gebruiken om die deskundigen te helpen de aard van de zaak te begrijpen, zelfs als ze niet bekend zijn met de taal in de brondocumenten.
Hoewel we nog maar net begonnen zijn met het onderzoeken van de mogelijkheden van generatieve AI om met verschillende talen te werken, zijn de eerste resultaten veelbelovend als het gaat om het gebruik van generatieve AI om tijd en kosten te besparen bij het beoordelen van meertalige documenten.
Als u vragen hebt over aiR for Review of het gebruik van kunstmatige intelligentie door Foley, neem dan contact op met de auteurs of uw advocaat bij Foley & Lardner.