富乐律师事务所(Foley)与Relativity公司于2023年开始尝试GPT产品,此后逐步发展为如今可用的基于GPT技术的"aiR"工具套件。富乐参与早期实验并取得的成功,促使该所法律团队积极探索aiR的创新应用场景,以验证其性能表现。
其中一项实验是多语言(西班牙语和英语)内部调查。传统上,面对外语审查时,需要额外投入时间和资金聘请精通外语的审查员并进行翻译。而推动调查范围的团队策略师中,仅有一人精通西班牙语。这正是检验aiR能力的理想场景——它不仅能翻译,更能深入分析和理解语言,从而为其建议生成支持依据和引证。
英语案件策略师在aiR for Review系统中起草了纯英文提示词,用于识别五项核心问题。其成果令人惊叹——aiR不仅能识别问题,还能理解西班牙语并输出英文结果。我们针对记录层级和问题层级的识别准确性进行了验证测试,同时由富乐律师事务所的多语种律师对引证内容进行核查,确保其支持分析结论。 相较于aiR投入使用前需逐案生成问题分析及翻译的流程,此举节省的成本与时间之巨难以估量。
文件翻译的需求以及与翻译相关的时间和费用得以消除。这使得所有案件策略师都能在隔夜看到英文结果,并迅速转入为客户进行咨询的阶段。
及时迭代的重要性
建立适当的提示标准至关重要,这些标准为aiR for Review提供了评估数据所需的上下文输入,从而确保输出结果的准确性与有效性。本次分析所采用的提示标准是通过迭代方法制定的。这种迭代方法使审查团队能够根据对事项的初步理解,对初始提示结果进行审查并调整提示标准,以实现文档的正确分类;同时也能根据审查文档过程中发现的新信息,及时修订提示内容。
首先,初始提示词筛选标准基于案件策略师向双语评审员提供的指导。截至此时已完成部分西班牙语检索词的审查工作,其中少量材料被用于提示词测试。aiR能否找到Foley评审员已知的信息?
这些初始标准通过50份预先标记为"热点"且带有相关议题标签的文件进行了测试,以验证aiR for Review能否在样本集中识别相同议题并准确提供西班牙语引文。 测试结果经过质量控制(QC)审核,评审员对aiR标记为"临界"的文档提供了反馈。基于QC反馈,我们修订了提示语并补充了临界文档的分类指引。在对相关文档进行额外人工复核后,提示语再次优化——当对100份全新未审核文档进行随机抽样测试时,推荐结果从"临界"显著提升至"相关"。
福莱建立的工作流程是:对任何存在争议的文件进行人工审核。
该过程彰显了采用迭代方法制定提示词标准的重要性。通过在小样本上测试初始版本的提示词,Foley团队得以评估aiR的解读结果,并明确了实现更精准预测所需的输入要素。在审查样本过程中,评审人员进一步优化了提示词中的信息。这些对初始提示词的调整不仅提升了预测效果,更建立了将该技术应用于更广泛数据集所需的信心。
让aiR付诸行动
在确定提示标准后,aiR for Review系统对包含优先搜索词的未审查材料集进行了分析。 共分析2,292条记录,其中589条被判定与问题相关或处于临界状态。另有385份文件因格式限制无法通过aiR for Review分析。为评估分析结果,人工审核员对相关记录、临界记录及未分析记录(共计974份文件)进行了质量控制。
结果令人印象深刻:6%(55份)的文件获得了评审反馈,其中绝大多数是aiR标记为"临界"的文件。仅有两份文件被错误评估;在这些案例中,aiR存在过度包含的情况,将不相关的文件误判为相关。
总体而言,在质量控制过程中,aiR的建议被人工审阅者推翻的比例不足1%。基于如此优异的表现,我们未对提示词标准进行额外调整,并将aiR应用于更多且规模更大的文档集。
Since the subjective review of aiR for Review’s performance was positive, Foley enlisted the help of Relativity’s data scientist to confirm the subjective results objectively. Foley’s bilingual subject-matter expert (SME) for the project reviewed aiR for Review’s results from samples sets of documents designed by Relativity’s Data Scientists. The SME was instructed to assess both (1) aiR for Review’s issue detection and (2) citation support for its conclusions. At the conclusion of the SME review, issue and citation validation both yielded a <1% error rate.
本文发布时,调查仍在进行中。基于这些结果,福莱团队继续使用aiR for Review来加速相关文件的审查。
用生成式人工智能打破语言壁垒
aiR for Review展现出卓越的西班牙语材料分析能力,能够精准识别西班牙语引文,同时以英语提供详尽的决策依据,且速度快、准确度高。经多语言专家团队对分析依据和引文准确性进行复核,超过99%的分析依据被判定为正确解读,89%的引文被认定为有效支持分析结论。
该功能为多语言案件带来了巨大的效率提升机遇。除了更快速、更精准的分析能力外,aiR for Review还能帮助审查人员轻松总结并汇报那些源语言不被资深律师、领域专家及关键利益相关方理解的文件内容。 在需要领域专家的复杂案件中,律所可根据专业能力聘请人才,无需顾虑语言障碍。随后借助aiR for Review的推理与论证功能,即使专家不熟悉源文件语言,也能帮助其理解案件本质。
尽管我们才刚开始探索生成式人工智能跨语言协作的能力,但初步成果表明,运用生成式人工智能推动多语言文件审查的效率提升与成本节约方面展现出巨大潜力。
若您对aiR for Review或Foley使用人工智能有任何疑问,请联系本文作者或您的Foley & Lardner律师。