许多AI模型的安全评估存在重大限制

尽管对AI安全和问责的需求不断增加,但根据一份新报告,今天的测试和基准可能存在缺陷。

生成式AI模型 - 可以分析和输出文本、图像、音乐、视频等的模型 - 由于其犯错误的倾向和通常表现难以预测而受到增加关注。现在,从公共部门机构到大型科技公司都在提出新的基准来测试这些模型的安全性。

去年底,初创公司Scale AI成立了一个实验室,专门评估模型与安全准则的对齐情况。本月,NIST和英国AI安全研究所发布了旨在评估模型风险的工具。

但这些探究模型的测试和方法可能是不足的。

总部位于英国的非营利AI研究机构爱达罗佛莱斯研究所(ALI)进行了一项研究,对学术实验室、民间社会和生产供应商模型等专家进行了访谈,并审查了最近对AI安全评估的研究。共同作者发现,尽管当前的评估可能是有用的,但它们不是穷尽的,容易被操纵,并不一定能够表明模型在现实场景中的表现如何。

“无论是智能手机、处方药还是汽车,我们都希望使用的产品是安全可靠的;在这些领域,产品在部署之前会经过严格的测试,以确保它们是安全的。”爱达罗佛莱斯研究所的高级研究员、该报告的共同作者埃利奥特·琼斯告诉TechCrunch。“我们的研究旨在研究当前AI安全评估方法的局限性,评估评估目前的使用方式,并探讨其作为政策制定者和监管机构工具的用途。”

基准和红队测试

该研究的共同作者首先调查了学术文献,以建立对模型今天造成的危害和风险以及现有AI模型评估状况的概述。然后,他们对16位专家进行了访谈,其中包括4位来自未透露的开发生成式AI系统的科技公司的员工。

研究发现,在AI行业内存在对于评估模型的最佳方法和分类法存在尖锐分歧。

有些评估仅测试模型在实验室中与基准的对齐情况,而不是模型可能如何影响现实世界用户。其他评估借鉴了为研究目的开发的测试,而不是评估生产模型 - 然而供应商坚持要在生产中使用这些测试。

我们之前已经写过关于AI基准问题的文章,该研究突显了所有这些问题以及更多问题。

研究中引用的专家指出,从基准结果中推断模型的性能很困难,也不清楚基准是否能显示模型具有特定的能力。例如,虽然一个模型在一个州的律师资格考试中表现良好,但这并不意味着它能够解决更多开放性的法律挑战。

专家们还指出了数据污染的问题,如果模型在被测试的数据上训练,基准结果可能会高估模型的性能。专家表示,许多情况下,组织选择基准并不是因为它们是最佳的评估工具,而是为了方便和易用性。

爱达罗佛莱斯研究所的研究还发现了“红队测试”的问题,即让个人或团队“攻击”模型以识别漏洞和缺陷的做法。一些公司使用红队测试来评估模型,包括AI初创公司OpenAI和Anthropic,但对于红队测试没有达成一致的标准,这使得评估特定努力的有效性变得困难。

专家告诉研究的共同作者,要找到具有必要技能和专业知识的人进行红队测试很困难,并且红队测试的手工性质使其成本高昂且繁琐 - 对于没有必要资源的较小组织来说,这构成了障碍。

可能的解决方案

将模型更快地发布并且不愿意进行可能在发布之前引发问题的测试是AI评估没有变得更好的主要原因。

“我们与一家开发基础模型的公司的一位受访者表示,公司内部更加倾向于快速发布模型,这使得更难以推迟并认真进行评估。”琼斯说。“主要的AI实验室正在以超过他们或社会能力保证其安全性和可靠性的速度发布模型。”

爱达罗佛莱斯研究所的一位受访者称,对模型的安全性进行评估是一个“棘手”的问题。那么,行业 - 以及监管行业的人员 - 对解决方案有什么希望呢?

爱达罗佛莱斯研究所的研究员玛希·哈达卢帕斯认为,有一条出路,但这将需要来自公共部门机构的更多参与。

“监管者和政策制定者必须明确表达他们希望评估得到什么。”他说。“同时,评估社区必须对评估的目前限制和潜力保持透明。”

哈达卢帕斯建议政府要求更多的公众参与评估的开发,并实施措施支持第三方测试的“生态系统”,包括确保定期访问所需模型和数据集的计划。

琼斯认为,可能需要开发“特定背景”的评估,而不仅仅是测试模型对提示的反应,并且要考虑模型可能影响的用户类型(例如特定背景、性别或种族的人)以及模型遭受攻击如何打败保障措施。

“这将需要投资于评估的基础科学,以开发更健壮和可重复的评估,这些评估是基于对AI模型运行方式的理解。”她补充道。

但也许永远不能保证一个模型是安全的。

“正如其他人所指出的那样,‘安全’不是模型的属性。”哈达卢帕斯说。“确认模型是否‘安全’需要理解其使用环境,它将被出售或提供给谁,以及已经建立的安全措施是否足够强大和健壮以减少这些风险。对基础模型的评估可以起到探索性的作用,以识别潜在风险,但无法保证一个模型是安全的,更不用说‘完全安全’。许多受访者都同意,评估不能证明一个模型是安全的,只能表明一个模型是不安全的。”