斯坦福研究人员分析主流人工智能法律研究工具的可靠性

本文探讨了检索增强生成（RAG）的概念及其在解决语言模型法律幻觉问题中的潜力。RAG是一种结合检索与生成步骤的技术，通过整合检索文档中的信息来生成更准确、更详细的响应。检索步骤基于用户查询选择相关文档，而生成步骤则利用这些文档与查询内容共同生成响应。

本文揭示了RAG技术在法律领域的局限性。法律检索面临挑战，因其缺乏明确答案，且需综合考量不同时空背景下的多元信息源。文件相关性不仅取决于文本相似度，不同司法管辖区和历史时期可能适用相异法规。生成具有法律效力的文本同样复杂，需在考量法律语境的前提下，整合多来源的事实与规则。

为评估RAG系统的质量，本文引入了正确性与依据性两个概念。正确性指响应内容的事实准确性与相关性，而依据性则评估响应与引用来源之间的关联度。若响应错误地声称获得无关来源的支持，则可能存在正确但依据不当的情况。幻觉响应被定义为内容错误或依据不当的响应。

该文章强调在法律人工智能工具中解决幻觉问题的重要性，因为幻觉可能误导用户并导致潜在危险后果。文章指出，若所链接的真实法律文件与工具主张无关或存在矛盾，单纯提供链接并不能保证消除幻觉现象。

尽管RAG在缓解法律幻觉方面展现出潜力，但在法律领域仍存在局限性。本文提出了一套评估响应正确性与合理性的框架，并强调在检索和生成环节需谨慎设计。解决幻觉问题需要计算机科学与法律领域的双重专业知识，以确保法律人工智能工具的准确性和可靠性。

虽然相较于通用聊天机器人（GPT-4），幻觉现象有所减少，但我们发现LexisNexis和汤森路透开发的AI研究工具各自出现幻觉的频率均超过17%。
查看引用文章

[email protected]

圣地亚哥 858.847.6733

作者