本文作者创建了一个包含长篇开放式问题和多项选择题的基准测试,用于评估多种大型语言模型在法律推理方面的表现。法律推理需要将演绎和归纳逻辑应用于复杂情境,其中常存在未定义的参数。研究结果表明,这些模型在处理"需要结构化、多步骤法律推理的开放式问题时仍显吃力"。
法律推理是大型语言模型(LLMs)乃至整个人工智能(AI)领域的重要前沿,需要专业领域知识和高级推理能力,例如判例解释、法规分析和法律推论。尽管通用推理取得进展,法律推理在自然语言处理研究中仍面临挑战且评估不足。此外,法律领域具有高风险特性,若未能全面检验模型的能力和局限性,可能导致严重的现实后果……
查看引用文章
我们的分析揭示了大型语言模型在处理选择题(尤其是复杂开放性问题)时存在显著能力差异与局限性:值得注意的是,增加选择题选项数量会持续降低模型准确率。本评估框架提供了一种超越简单准确率指标的可扩展方法,用于衡量法律推理质量,从而为未来研究提供依据,旨在提升大型语言模型在复杂法律任务中的可靠性与稳健性。
作者
相关洞察
2026年5月11日
福莱观点
重建胸腺:人工智能、再生医学与新兴的免疫长寿生物技术
Bernatz等人最近发表在《自然》杂志上的这篇文章特别引起了我的兴趣,因为多年前我曾对胸腺进行过科学研究……
2026年5月8日
福莱观点
税务审计与退税的新标准:为您的企业提供更明确的税务保障
近日,墨西哥财政部(SHCP)发布了《关于制定促进生产性投资和税务合规的一般标准及咨询性操作指南的协议》。 实际上,该文件旨在营造清晰且可预见的税务环境,简化行政程序,鼓励投资,并为税务审计和退税流程提供更大的确定性。鉴于《美墨加协定》(USMCA)即将进行审议,以及吸引国内外资本在墨西哥开展业务的兴趣日益浓厚,这一点尤为重要。
2026年5月7日
福莱观点
美国证券交易委员会提议允许上市公司选择性提交半年度报告
2026年5月5日,美国证券交易委员会(“SEC”)提议修订规则和表格,允许上市公司提交……