Briser les barrières linguistiques grâce à l'IA générative : comment Foley & Lardner a procédé à l'examen de documents multilingues avec Relativity aiR for Review
Foley & Lardner LLP (Foley) et Relativity ont commencé à tester les produits GPT en 2023, ce qui a donné naissance à la suite d'outils « aiR » basés sur GPT actuellement disponibles. La participation et le succès de Foley dans les premières expériences ont encouragé les équipes juridiques de Foley à promouvoir des utilisations novatrices d'aiR afin d'évaluer ses performances.
L'une de ces expériences consistait en une enquête interne multilingue (espagnol et anglais). Traditionnellement, lorsqu'il s'agit d'examiner un document rédigé dans une langue étrangère, il faut consacrer du temps et de l'argent supplémentaires à la recherche de réviseurs et de traducteurs compétents. Seul un des stratèges de l'équipe chargée de définir la portée de l'enquête parlait couramment l'espagnol. C'était donc la situation idéale pour tester la capacité d'aiR non seulement à traduire, mais aussi à analyser et à comprendre suffisamment bien la langue pour générer des arguments et des citations à l'appui de ses recommandations.
Le stratège juridique anglophone a rédigé une invite en anglais uniquement dans aiR for Review afin d'identifier cinq problèmes fondamentaux. Les résultats ont été extraordinaires, car aiR a été capable d'identifier les problèmes, de comprendre l'espagnol et de fournir des résultats en anglais. Des tests de validation ont été effectués sur la précision de la détection des problèmes, tant au niveau des dossiers que des problèmes. Les citations ont également été validées par les avocats multilingues de Foley afin de s'assurer qu'elles corroboraient l'analyse. Les économies de temps et d'argent réalisées par rapport à la génération d'une analyse des problèmes au niveau des dossiers et à la traduction avant aiR sont inestimables.
Le besoin de traduction des documents ainsi que le temps et les frais liés à la traduction ont été éliminés. Cela a permis à tous les stratèges chargés des dossiers de consulter les résultats en anglais dès le lendemain et de passer rapidement à la phase de conseil auprès du client.
L'importance d'une itération rapide
Pour obtenir des résultats précis et satisfaisants, il est essentiel d'établir des critères de promptitude appropriés, c'est-à-dire les données d'entrée qui fournissent à aiR for Review le contexte dont il a besoin pour évaluer les données. Les critères de promptitude utilisés pour cette analyse ont été élaborés à l'aide d'une approche itérative. Cette approche itérative a permis à l'équipe d'examen d'examiner les résultats initiaux de la promptitude et d'ajuster les critères de promptitude afin de classer correctement les documents en fonction de la compréhension initiale du sujet ou de réviser la promptitude pour tenir compte des nouvelles informations découvertes lors de l'examen des documents.
Tout d'abord, les critères initiaux de la invite étaient basés sur les instructions fournies aux réviseurs bilingues par les stratèges chargés des dossiers. Une partie de la recherche des termes en espagnol avait déjà été effectuée à ce stade, et quelques-uns de ces documents ont été utilisés pour tester la invite. L'aiR pouvait-il trouver ce que les réviseurs de Foley savaient déjà ?
Ces critères initiaux ont été testés sur 50 documents « sensibles » préalablement identifiés et comportant des balises thématiques pertinentes afin de déterminer si aiR for Review était capable d'identifier les mêmes problèmes dans l'ensemble de l'échantillon et de fournir des citations appropriées en espagnol. Les résultats ont été soumis à un contrôle qualité, et les réviseurs ont fourni des commentaires sur les documents qu'aiR a identifiés comme « limites ». Sur la base des commentaires du contrôle qualité, l'invite a été révisée avec des instructions supplémentaires sur la manière dont ces documents limites devaient être classés. Une révision encore plus approfondie de l'invite, après un examen supplémentaire par des humains des documents pertinents, a permis d'améliorer les recommandations, qui sont passées de « limites » à « pertinentes », lorsqu'elles ont été testées sur un échantillon aléatoire de 100 nouveaux documents non révisés.
Le processus établi par Foley consistait à soumettre tout document douteux à un examen humain.
Ce processus démontre l'importance d'une approche itérative pour développer des critères de prompt. En testant une première version du prompt sur un petit échantillon, l'équipe Foley a pu évaluer les interprétations d'aiR et comprendre les données nécessaires pour obtenir des prédictions plus précises. Lors de l'examen de l'échantillon, les évaluateurs ont pu améliorer encore les informations fournies dans le prompt. Ces ajustements apportés au prompt initial ont amélioré les résultats et établi la confiance nécessaire pour exploiter la technologie sur un ensemble de données plus large.
Mettre l'aiR en action
Une fois les critères de recherche définis, aiR for Review a été lancé sur un ensemble de documents non examinés correspondant aux termes de recherche prioritaires. Au total, 2 292 documents ont été analysés, dont 589 ont été jugés pertinents ou limites. 385 autres documents reçus n'ont pas pu être analysés par aiR for Review en raison de limitations de format. Afin d'évaluer les résultats, des examinateurs humains ont procédé à un contrôle qualité des documents pertinents, limites et non analysés (974 documents au total).
Les résultats ont été impressionnants : 6 % (55) des documents ont reçu des commentaires des évaluateurs, dont la grande majorité étaient ceux qu'aiR avait identifiés comme « limites ». Seuls deux documents ont été évalués de manière incorrecte ; dans ces cas, aiR a été trop inclusif, interprétant un document comme pertinent alors qu'il ne l'était pas.
Dans l'ensemble, moins de 1 % des recommandations d'aiR ont été rejetées par les réviseurs humains lors du processus de contrôle qualité. Compte tenu de ces résultats très positifs, aucun ajustement supplémentaire n'a été apporté aux critères de promptitude, et aiR a été utilisé sur des ensembles de documents supplémentaires et plus volumineux.
Since the subjective review of aiR for Review’s performance was positive, Foley enlisted the help of Relativity’s data scientist to confirm the subjective results objectively. Foley’s bilingual subject-matter expert (SME) for the project reviewed aiR for Review’s results from samples sets of documents designed by Relativity’s Data Scientists. The SME was instructed to assess both (1) aiR for Review’s issue detection and (2) citation support for its conclusions. At the conclusion of the SME review, issue and citation validation both yielded a <1% error rate.
Au moment de la publication de cet article, l'enquête est toujours en cours, et sur la base de ces résultats, l'équipe Foley a continué à utiliser aiR for Review pour accélérer l'examen des documents pertinents.
Briser les barrières linguistiques grâce à l'IA générative
aiR for Review a démontré une capacité remarquable à analyser des documents en espagnol et à identifier des citations en espagnol, tout en fournissant rapidement et avec précision un raisonnement solide autour de ses décisions en anglais. Lorsqu'un partenaire multilingue a vérifié l'exactitude des justifications et des citations, plus de 99 % des justifications ont été jugées correctement interprétées et 89 % des citations ont été jugées correctement étayer l'analyse.
Cette fonctionnalité offre d'énormes possibilités en termes d'efficacité dans les dossiers multilingues. Outre une analyse plus rapide et plus précise, aiR for Review permet aux réviseurs de résumer et de rendre compte facilement des documents dont la langue source n'est pas comprise par les avocats chevronnés, les experts en la matière et les principales parties prenantes. Dans les affaires plus complexes, où l'intervention d'experts est nécessaire, les cabinets peuvent recruter des personnes en fonction de leur expertise sans se soucier des barrières linguistiques, puis utiliser le raisonnement et la logique d'aiR for Review pour aider ces experts à comprendre la nature du dossier, même s'ils ne maîtrisent pas la langue des documents sources.
Bien que nous commencions tout juste à explorer la capacité de l'IA générative à fonctionner dans plusieurs langues, les premiers résultats sont très prometteurs en ce qui concerne l'utilisation de l'IA générative pour réduire le temps et les coûts liés à la révision de documents multilingues.
Si vous avez des questions concernant aiR for Review ou l'utilisation de l'intelligence artificielle par Foley, veuillez contacter les auteurs ou votre avocat chez Foley & Lardner.