本文作者创建了一个包含长篇开放式问题和多项选择题的基准测试,用于评估多种大型语言模型在法律推理方面的表现。法律推理需要将演绎和归纳逻辑应用于复杂情境,其中常存在未定义的参数。研究结果表明,这些模型在处理"需要结构化、多步骤法律推理的开放式问题时仍显吃力"。
法律推理是大型语言模型(LLMs)乃至整个人工智能(AI)领域的重要前沿,需要专业领域知识和高级推理能力,例如判例解释、法规分析和法律推论。尽管通用推理取得进展,法律推理在自然语言处理研究中仍面临挑战且评估不足。此外,法律领域具有高风险特性,若未能全面检验模型的能力和局限性,可能导致严重的现实后果……
查看引用文章
我们的分析揭示了大型语言模型在处理选择题(尤其是复杂开放性问题)时存在显著能力差异与局限性:值得注意的是,增加选择题选项数量会持续降低模型准确率。本评估框架提供了一种超越简单准确率指标的可扩展方法,用于衡量法律推理质量,从而为未来研究提供依据,旨在提升大型语言模型在复杂法律任务中的可靠性与稳健性。
作者
相关洞察
2026年4月22日
福莱观点
墨西哥最高法院裁定冻结银行账户的措施有效
2026年4月6日,墨西哥最高法院(“SCJN”)在就违宪诉讼(acción de inconstitucionalidad) 58/2022案作出裁决时,确认了《信贷机构法》(“LIC”)第116条之二第2款的合宪性,从而认可了墨西哥财政部通过其金融情报局(“UIF”),依据“被冻结人员名单”,在有充分证据认为相关人员涉嫌(i)资助恐怖主义、 (ii) 非法资金交易,或 (iii) 相关罪行。此项判例对任何在墨西哥金融体系内持有银行账户或进行交易的人士具有特别重要的意义。
2026年4月22日
福莱观点
专利分析在人工智能驱动的靶点和候选药物筛选中发挥着越来越重要的作用
Pun等人近期发表在《自然-药物发现评论》上的综述文章《人工智能时代的靶点识别与评估》阐述了……
2026年4月20日
福莱观点
最终规则豁免ICHRAs及其他账户型计划免于遵守《联邦公报》第77卷第200号(2018年10月29日)中关于“符合Medicare D部分标准的可抵免保险”的通知
2026年4月6日,美国卫生与公众服务部(HHS)发布了一项最终规则,正式将基于账户的团体健康保险……