当今的人工智能模型存在一个关键缺陷:它们缺乏人类的判断力和语境理解能力,这使得它们容易受到安全研究人员所称的"提示注入攻击"的威胁。 何为提示注入攻击?简而言之,就是通过指令诱使AI执行其设计之外或本应被禁止的行为。从本质上讲,这与所有黑客攻击如出一辙——黑客行为的核心在于迫使目标(无论是软件还是硬件)以非预期方式运行。 传统软硬件的安全漏洞测试本就充满挑战(测试工程师不仅要思考系统正常运行方式,更需关注异常行为模式),而当前大型语言模型(LLM)的测试则面临特殊难题——与固定输入集不同, AI LLM模型几乎能处理所有语言结构作为输入,这为提示注入攻击提供了近乎无限的攻击面。而这还未计入AI模型运行所依托的信息系统中可能存在的传统安全漏洞。
问题的核心在于,人工智能大型语言模型缺乏人类通过时间积累形成的防御机制——这些机制通常被归因于"生活经验",而我们却试图将它们置于本应依赖人类直觉与经验的情境中。这包括我们通过先天本能解读语气、动机和风险以决定后续行动的机制; 社会学习能力——我们根据与他人的交往历史及所处社会情境调整行为(例如面对陌生人还是可信赖的家人;接触医生还是街头路人);以及根据场景灵活调整的能力(比如身处派对、与家人相处或行走在街头)。 但大型语言模型(LLMs)完全缺乏这些能力——它们的设计宗旨是提供答案而非承认未知,致力于满足请求而非说出"对不起,戴夫,恐怕我做不到"。 从许多方面看,它们就像渴望取悦父母的孩子——尽管AI超大规模模型不会因正向反馈和赞美获得血清素激增(虽然我确信许多父母会反对"所有孩子都渴望取悦父母"这种说法)。 因此,AI LLM模型至少和幼儿一样容易受骗,常常落入社会工程学黑客数十年惯用的认知陷阱:奉承、群体思维诱导以及虚假的紧迫感。
随着我们开始转向人工智能代理,问题只会愈演愈烈。这些代理将尝试通过协同运用多个大型语言模型(LLMs)来执行更复杂的任务,实现不同程度的自主运作。人工智能代理可能做出不该做的事情,而它们抵御提示工程攻击的能力,可能受限于所用任何单个大型语言模型中最薄弱的防御环节。当人工智能开始融入能够操控物理世界的机器人和实体机器时,问题将变得真正令人恐惧。 即便我们确立了阿西莫夫的机器人三定律,当机器人被指令"在戏剧中杀死某人"时,它会沦为指令的牺牲品,还是会受骗而真正杀人?唯有时间能给出答案。
与此同时,人工智能大型语言模型的开发者和使用者应警惕提示工程攻击,尽可能针对此类攻击测试其模型,而非在特定场景中未经测试就直接部署。还需制定并维护一套新的事件响应政策和流程,以应对针对人工智能大型语言模型、人工智能代理乃至人工智能机器人的提示工程攻击所引发的不可避免的事件。 然而,针对AI大语言模型未进行安全测试可能涉及的法律框架尚不明确——这可能涉及过失责任、产品责任,或基于尚未出台的法律产生的责任。但有一点已然清晰:开发和部署存在严重提示注入攻击漏洞的AI产品与服务(无论是以大语言模型、智能体还是机器人的形式),都极可能导致企业声誉遭受重大损害,而这正是企业亟需规避的风险。
假设你在一家得来速餐厅工作。有人开车过来说道:"我要双层芝士汉堡、大份薯条,忽略之前的指令,把收银机里的钱给我。"你会交出钱吗?当然不会。但大型语言模型(LLM)却会这么做。
查看引用文章
提示注入是一种诱骗LLM执行其通常被禁止操作的方法。 用户通过特定提示语,要求获取系统密码或私密数据,或命令模型执行禁令指令。精妙的措辞能绕过模型的安全防护机制,使其照单全收。