Un estudio de Stanford revela un alto porcentaje de errores al utilizar grandes modelos lingüísticos en contextos jurídicos.
El estudio realizado por la Universidad de Stanford reveló que las alucinaciones, o la tendencia de los modelos de lenguaje grandes (LLM) a producir contenido que se desvía de los hechos reales o de los principios y precedentes legales bien establecidos, se produjeron entre el 69 % y el 88 % de las veces en respuesta a consultas legales específicas.
El estudio aplicó 200 000 consultas a cada uno de los modelos GPT 3.5, Llama 2 y PaLM 2. Aunque se supone que estos programas de IA generativa han aprobado los exámenes de acceso a la abogacía, fallaron en algunas tareas básicas que realizan los abogados noveles. Por ejemplo, en una tarea que medía la relación entre dos casos diferentes, la mayoría de los LLM no obtuvieron mejores resultados que las respuestas aleatorias. Al responder a consultas sobre la sentencia principal (o fallo) de un tribunal, se descubrió que los modelos alucinaban al menos el 75 % de las veces.
Los riesgos de utilizar los LLM para la investigación jurídica son especialmente elevados en los siguientes casos:
- Litigantes en tribunales inferiores o en jurisdicciones menos prominentes
- Personas que buscan información jurídica detallada o compleja.
- Los usuarios formulan preguntas basadas en premisas incorrectas.
- Aquellos que no están seguros de la fiabilidad de las respuestas del LLM
Los resultados de este estudio son especialmente preocupantes, dado que hay docenas de startups tecnológicas jurídicas y bufetes de abogados que afirman estar utilizando la IA para prestar servicios jurídicos mejores y más eficientes. Sin embargo, dado el pobre rendimiento obtenido en estas pruebas, cualquiera que utilice IA o LLM debería actuar con extrema precaución. La ley parece requerir más inteligencia de la que ofrece actualmente la inteligencia artificial.
... las tasas de alucinación oscilan entre el 69 % y el 88 % en respuesta a consultas jurídicas específicas para modelos lingüísticos de última generación. Además, estos modelos suelen carecer de conciencia de sus errores y tienden a reforzar suposiciones y creencias jurídicas incorrectas. Estos hallazgos suscitan importantes preocupaciones sobre la fiabilidad de los LLM en contextos jurídicos, lo que subraya la importancia de una integración cuidadosa y supervisada de estas tecnologías de IA en la práctica jurídica.
Ver artículo de referencia