斯坦福大学的研究发现,当处理特定法律查询时,大型语言模型(LLMs)产生与实际事实或确立的法律原则及判例相悖内容的现象——即所谓的"幻觉"——发生率高达69%至88%。
该研究分别对GPT 3.5、Llama 2和PaLM 2模型进行了20万次查询测试。尽管这些生成式人工智能程序据称已通过律师资格考试,但在执行初级律师完成的某些基础任务时却表现失常。例如,在评估两起不同案件先例关联性的任务中,多数大型语言模型(LLM)的表现甚至不如随机猜测。 在回答关于法院核心裁决(或判决要旨)的查询时,模型被发现至少75%的时间会产生幻觉。
使用大型语言模型进行法律研究的风险在以下方面尤为突出:
- 在基层法院或非主要司法管辖区诉讼的当事人
- 寻求详细或复杂法律信息的个人
- 用户基于错误前提提出问题
- 对大型语言模型(LLM)响应可靠性存疑者
这项研究的结果尤其令人担忧,因为数十家法律科技初创企业和律师事务所声称正在利用人工智能提供更优质、更高效的法律服务。然而,鉴于这些测试中表现如此糟糕,任何使用人工智能或大型语言模型的人都应保持高度警惕。法律似乎需要比当前人工智能所能提供的更高的智慧。
针对尖端语言模型的特定法律查询,其产生幻觉的比率介于69%至88%之间。此外,这些模型往往缺乏对自身错误的自我认知,且倾向于强化错误的法律假设与认知。这些发现引发了对大型语言模型在法律场景中可靠性的重大担忧,凸显了将这些人工智能技术审慎、有监督地融入法律实践的重要性。
查看引用文章
作者
相关洞察
2026年4月29日
福莱观点
向富人征税:更多州正在考虑并出台针对富人的税收政策
正如2026年3月16日《福莱博客》所预测的那样,近期已有若干州着手制定或提议针对个人的所得税……
2026年4月22日
福莱观点
墨西哥最高法院裁定冻结银行账户的措施有效
2026年4月6日,墨西哥最高法院(“SCJN”)在就违宪诉讼(acción de inconstitucionalidad) 58/2022案作出裁决时,确认了《信贷机构法》(“LIC”)第116条之二第2款的合宪性,从而认可了墨西哥财政部通过其金融情报局(“UIF”),依据“被冻结人员名单”,在有充分证据认为相关人员涉嫌(i)资助恐怖主义、 (ii) 非法资金交易,或 (iii) 相关罪行。此项判例对任何在墨西哥金融体系内持有银行账户或进行交易的人士具有特别重要的意义。
2026年4月20日
福莱观点
最终规则豁免ICHRAs及其他账户型计划免于遵守《联邦公报》第77卷第200号(2018年10月29日)中关于“符合Medicare D部分标准的可抵免保险”的通知
2026年4月6日,美国卫生与公众服务部(HHS)发布了一项最终规则,正式将基于账户的团体健康保险……