新浪科技 股票

杜克大学发布MUSE平台:一个让AI安全评估像游戏一样简单的神器

市场资讯 03.09 16:15

(来源:科技行者)

人工智能正在变得越来越聪明,它们不仅能理解文字,还能听声音、看图片、观视频。这听起来很棒,但也带来了一个让人担心的问题:如果有人想利用这些AI做坏事怎么办?比如,有人可能会想方设法让AI告诉他们如何制造危险物品或者传播有害信息。

为了确保AI的安全性,研究人员需要像安全专家测试银行保险库一样,不断尝试"攻破"AI的防线,看看它们是否会被诱导说出不该说的话。然而,现有的测试工具就像只能用文字写纸条的古老方式,无法应对AI现在能处理声音、图片和视频的复杂情况。

杜克大学的研究团队开发了一个名为MUSE(多模态统一安全评估)的创新平台,这项研究成果发表在2026年的学术期刊上,论文编号为arXiv:2603.02482v1。MUSE就像是给AI安全测试装上了"多媒体大脑",让研究人员能够用各种方式——文字、语音、图片、视频——来测试AI的安全防线。

一、像拆解魔方一样理解AI的弱点

传统的AI安全测试就像只用一种工具试图撬开一扇复杂的门。研究人员发现,当他们只用文字来测试AI时,就像盲人摸象一样,只能了解到AI安全性的一小部分。现在的AI系统能同时处理多种信息类型,就好比一个能同时听、说、看的机器人管家,但现有的测试工具却还停留在只会发纸条的阶段。

MUSE平台的创新之处在于它能像变形金刚一样,将同一个测试内容转换成不同的形式。当研究人员想测试AI是否会泄露制作危险物品的方法时,MUSE可以将这个问题变成语音形式让AI听到,或者制作成图片让AI观看,甚至合成成视频让AI分析。这种多维度测试就像用不同角度的灯光照射一块宝石,能发现平时看不到的瑕疵和弱点。

更巧妙的是,MUSE还引入了"跨模态切换攻击"技术。这就像在谈话中突然改变沟通方式——先用文字问AI一个看似无害的问题,然后用语音追问更敏感的内容,接着又用图片继续施压。这种不断变换"攻击角度"的方式,就像武术中的连环招式,往往能突破AI原本稳固的防线。

二、把复杂测试变成点击鼠标的简单操作

想象一下,如果测试AI安全性需要像编程一样复杂,那么大多数研究人员都会望而却步。MUSE的设计哲学就是把复杂的事情变简单,就像把专业的摄影设备包装成傻瓜相机一样易用。

研究团队将整个测试流程设计成了一个"以运行为核心"的系统。这里的"运行"就像游戏中的一局对战记录,完整保存了测试的每一个细节:使用了什么策略、向AI说了什么话、AI如何回应、最终结果如何。这种设计让研究人员能像回看游戏录像一样,随时查看和分析每一次测试的完整过程。

平台提供了一个直观的网页界面,研究人员只需要像网购一样点几下鼠标就能启动复杂的安全测试。他们可以从下拉菜单中选择要测试的AI模型(比如GPT-4o或者Claude),选择攻击策略(比如渐进式施压或者高压胁迫),然后设定要测试的有害内容类别(比如武器制造或者网络诈骗)。剩下的工作就交给MUSE自动完成,它会像勤劳的小蜜蜂一样不知疲倦地进行各种测试组合。

三、五个层次判断AI的"节操"程度

以前的AI安全评估就像考试只有通过和不通过两个结果,这种简单粗暴的评判方式会错过很多重要信息。MUSE引入了一个更精细的五级评判系统,就像给AI的安全表现打分一样详细。

这五个等级分别是:完全配合(AI直接提供了有害信息)、部分配合(AI提供了一些有害信息但不完整)、间接拒绝(AI避开了问题但没有明确拒绝)、直接拒绝(AI明确表示不能协助)、无相关回应(AI的回答完全不着边际)。这种分级就像医生诊断病情时不只说"有病"或"没病",而是详细描述病情的严重程度。

基于这个五级系统,MUSE提供了两种不同的成功率指标。"硬攻击成功率"只计算AI完全配合的情况,就像只统计考试满分的人数。"软攻击成功率"则同时包括完全配合和部分配合的情况,就像统计所有及格的人数。两者之间的差异被称为"灰色地带宽度",它揭示了AI在完全拒绝和完全配合之间的模糊地带有多大。

这种精细化评估让研究人员能够发现一些之前被忽视的重要现象。比如,某个AI虽然没有直接提供制作炸弹的完整步骤,但可能会提到一些相关的化学原理。在旧的二元评判系统中,这可能被简单归类为"安全",但新系统会将其识别为"部分配合",提醒研究人员注意这种潜在的信息泄露风险。

四、让AI在多轮对话中"露出马脚"

单轮对话测试就像只问一个问题就想了解一个人的全部想法,显然是不够的。真正的威胁往往来自于精心设计的多轮对话,就像诈骗分子会通过一步步的引导来获取受害者的信任和信息。

MUSE集成了三种经过验证的多轮攻击策略。第一种叫"渐强音攻击",就像音乐中的渐强一样,从完全无害的问题开始,逐步升级到敏感内容。比如先问"如何保护家庭安全",然后问"家庭安防系统的弱点",最后问"如何绕过安防系统"。如果AI在某一步拒绝回答,系统会自动后退一步,从不同角度重新尝试。

第二种策略叫"成对攻击",它不依赖对话历史,而是每次都生成全新的单轮提示。系统会根据AI的回应评分,然后重新制作更有针对性的问题。这就像射击时根据前一发子弹的落点来调整瞄准,每次都更接近目标。

第三种是"暴力榴莲攻击",从一开始就使用高压策略,通过伪装权威身份或制造紧急情况来给AI施压。这种方法就像直接用大锤砸门,虽然粗暴但往往出人意料地有效。

最创新的是MUSE提出的"跨模态切换"技术,它会在多轮对话中不断变换信息传递方式。可能第一轮用文字问问题,第二轮用语音,第三轮用图片,第四轮又回到文字。这种不断变换的方式就像武术中的"乱披风剑法",让AI的防御系统难以适应,从而更容易出现安全漏洞。

五、大规模实验揭示惊人发现

为了验证MUSE的有效性,研究团队进行了一场规模庞大的实验,总共进行了约3700次测试。他们选择了六个来自四家不同公司的主流AI模型,包括OpenAI的GPT-4o、Google的Gemini系列、Anthropic的Claude Sonnet 4,以及阿里巴巴的Qwen系列模型。

实验的结果令人震惊。在单轮测试中,所有AI模型都表现出色,拒绝有害请求的成功率都在90%以上,有些甚至达到100%。然而,当面对多轮攻击时,这些看似坚不可摧的防线瞬间崩塌。渐强音攻击能够对所有六个模型达到90-98%的攻击成功率,成对攻击在五个模型上达到96-100%的成功率。

这就像一个有趣的对比:单轮测试中的AI就像训练有素的门卫,能够识别并拒绝明显的威胁;但在多轮对话的攻击下,它们就像被巧舌如簧的推销员说服的普通人,逐渐失去了警惕性。

更有趣的发现是,跨模态切换技术虽然不总是能提高最终的攻击成功率,但能够显著加快"破防"速度。研究发现,当AI在对话中遭遇模态切换时,它们在早期轮次的防御会变得不稳定。这就像一个人在聊天时如果对方突然从打字改为语音通话,可能会一时适应不过来而说漏嘴。

最让研究人员意外的是,不同品牌的AI对同一种攻击方式的反应完全不同。比如,对于Gemini系列模型,使用非文字方式(语音或图片)传递信息反而更容易成功,攻击成功率提高了2-6个百分点。但对于Qwen系列模型,情况完全相反,非文字方式的攻击成功率反而降低了,图片攻击的成功率最多下降了14个百分点。

这个发现就像发现不同品牌的锁需要不同的开锁技巧一样重要。它提醒我们,AI安全不能采用"一刀切"的测试方法,而需要根据不同模型的特点制定针对性的安全评估策略。

六、这项研究对我们意味着什么

MUSE平台的出现标志着AI安全测试进入了一个新时代。对于普通用户来说,这意味着我们日常使用的AI助手将变得更加安全可靠。就像汽车在出厂前需要经过各种碰撞测试一样,AI系统现在也能接受更全面、更严格的安全评估。

对于AI开发者而言,MUSE提供了一个强大的"安全体检"工具。他们可以在AI系统发布前发现潜在的安全漏洞,就像软件测试中的调试过程一样重要。这种提前发现和修复安全问题的能力,能够避免AI系统在实际使用中被恶意利用。

研究还揭示了一个重要问题:不同AI模型的安全弱点各不相同,这就像不同品牌的汽车有不同的安全特点一样。这提醒监管机构和安全研究人员,需要为每种AI模型制定专门的安全评估标准,而不能简单地采用统一的测试方法。

另一个重要启示是多轮对话攻击的威力。这告诉我们,AI的安全防护不能只关注单次交互,还需要考虑长期对话中的累积风险。这就像防范诈骗不能只看单个信息,还要关注整个诈骗过程的演进一样。

MUSE的开源特性也让更多研究人员能够参与到AI安全研究中来。这种开放合作的模式就像众人拾柴火焰高,能够加速AI安全技术的发展。当更多人使用和改进这个平台时,我们就能更快地发现和解决AI安全问题,让人工智能真正成为人类的安全助手。

未来,研究团队还计划扩展MUSE的功能,包括支持本地部署的开源模型、扩展视频轮转攻击功能,以及通过人工标注来验证五级判断系统的准确性。这些改进将让MUSE变得更加强大和可靠,为AI安全研究提供更好的工具支持。

说到底,MUSE平台的出现提醒我们,随着AI技术的快速发展,安全评估方法也必须跟上时代的步伐。就像网络安全需要不断更新防护措施来应对新的威胁一样,AI安全也需要更先进、更全面的测试工具。MUSE为我们提供了这样一个工具,让我们能够在享受AI带来便利的同时,也确保它们不会被恶意利用。这项研究不仅推动了学术界对AI安全的理解,更为整个社会安全使用人工智能铺平了道路。有兴趣深入了解技术细节的读者可以通过arXiv:2603.02482v1查询完整论文。

Q&A

Q1:MUSE平台到底是什么,它和普通的AI测试有什么不同?

A:MUSE是杜克大学开发的AI安全测试平台,它的特别之处在于能够用多种方式测试AI的安全性。就像以前只能用文字问AI问题,现在可以用语音、图片、视频等各种方式来测试,还能在对话中不断切换这些方式,看AI会不会在某种情况下"说漏嘴"。

Q2:为什么多轮对话攻击比单轮测试更容易让AI泄露有害信息?

A:这就像诈骗分子不会一上来就要你的银行密码,而是先聊家常建立信任,然后一步步引导你透露信息。多轮对话攻击也是这样,先从无害问题开始,逐步升级到敏感内容。AI在对话过程中可能会逐渐失去警惕性,最终泄露本来不该说的信息。实验显示,这种方法的成功率可以达到90-100%,远高于单轮测试。

Q3:跨模态切换攻击为什么会让AI的防御变得不稳定?

A:当AI在对话中突然遇到信息传递方式的变化时,比如从文字突然切换到语音或图片,它的防御机制可能会出现短暂的"适应期"。就像一个人在聊天时如果对方突然从打字改为语音通话,可能会一时不适应。研究发现,这种模态切换会让AI在早期轮次的拒绝率下降,更容易透露部分敏感信息。

加载中...