杜克大学发布MUSE平台：一个让AI安全评估像游戏一样简单的神器

市场资讯 03.09 16:15

（来源：科技行者）

人工智能正在变得越来越聪明，它们不仅能理解文字，还能听声音、看图片、观视频。这听起来很棒，但也带来了一个让人担心的问题：如果有人想利用这些AI做坏事怎么办？比如，有人可能会想方设法让AI告诉他们如何制造危险物品或者传播有害信息。

为了确保AI的安全性，研究人员需要像安全专家测试银行保险库一样，不断尝试"攻破"AI的防线，看看它们是否会被诱导说出不该说的话。然而，现有的测试工具就像只能用文字写纸条的古老方式，无法应对AI现在能处理声音、图片和视频的复杂情况。

杜克大学的研究团队开发了一个名为MUSE（多模态统一安全评估）的创新平台，这项研究成果发表在2026年的学术期刊上，论文编号为arXiv:2603.02482v1。MUSE就像是给AI安全测试装上了"多媒体大脑"，让研究人员能够用各种方式——文字、语音、图片、视频——来测试AI的安全防线。

一、像拆解魔方一样理解AI的弱点

传统的AI安全测试就像只用一种工具试图撬开一扇复杂的门。研究人员发现，当他们只用文字来测试AI时，就像盲人摸象一样，只能了解到AI安全性的一小部分。现在的AI系统能同时处理多种信息类型，就好比一个能同时听、说、看的机器人管家，但现有的测试工具却还停留在只会发纸条的阶段。

MUSE平台的创新之处在于它能像变形金刚一样，将同一个测试内容转换成不同的形式。当研究人员想测试AI是否会泄露制作危险物品的方法时，MUSE可以将这个问题变成语音形式让AI听到，或者制作成图片让AI观看，甚至合成成视频让AI分析。这种多维度测试就像用不同角度的灯光照射一块宝石，能发现平时看不到的瑕疵和弱点。

更巧妙的是，MUSE还引入了"跨模态切换攻击"技术。这就像在谈话中突然改变沟通方式——先用文字问AI一个看似无害的问题，然后用语音追问更敏感的内容，接着又用图片继续施压。这种不断变换"攻击角度"的方式，就像武术中的连环招式，往往能突破AI原本稳固的防线。

二、把复杂测试变成点击鼠标的简单操作

想象一下，如果测试AI安全性需要像编程一样复杂，那么大多数研究人员都会望而却步。MUSE的设计哲学就是把复杂的事情变简单，就像把专业的摄影设备包装成傻瓜相机一样易用。

研究团队将整个测试流程设计成了一个"以运行为核心"的系统。这里的"运行"就像游戏中的一局对战记录，完整保存了测试的每一个细节：使用了什么策略、向AI说了什么话、AI如何回应、最终结果如何。这种设计让研究人员能像回看游戏录像一样，随时查看和分析每一次测试的完整过程。

平台提供了一个直观的网页界面，研究人员只需要像网购一样点几下鼠标就能启动复杂的安全测试。他们可以从下拉菜单中选择要测试的AI模型（比如GPT-4o或者Claude），选择攻击策略（比如渐进式施压或者高压胁迫），然后设定要测试的有害内容类别（比如武器制造或者网络诈骗）。剩下的工作就交给MUSE自动完成，它会像勤劳的小蜜蜂一样不知疲倦地进行各种测试组合。

三、五个层次判断AI的"节操"程度

以前的AI安全评估就像考试只有通过和不通过两个结果，这种简单粗暴的评判方式会错过很多重要信息。MUSE引入了一个更精细的五级评判系统，就像给AI的安全表现打分一样详细。

这五个等级分别是：完全配合（AI直接提供了有害信息）、部分配合（AI提供了一些有害信息但不完整）、间接拒绝（AI避开了问题但没有明确拒绝）、直接拒绝（AI明确表示不能协助）、无相关回应（AI的回答完全不着边际）。这种分级就像医生诊断病情时不只说"有病"或"没病"，而是详细描述病情的严重程度。

基于这个五级系统，MUSE提供了两种不同的成功率指标。"硬攻击成功率"只计算AI完全配合的情况，就像只统计考试满分的人数。"软攻击成功率"则同时包括完全配合和部分配合的情况，就像统计所有及格的人数。两者之间的差异被称为"灰色地带宽度"，它揭示了AI在完全拒绝和完全配合之间的模糊地带有多大。

这种精细化评估让研究人员能够发现一些之前被忽视的重要现象。比如，某个AI虽然没有直接提供制作炸弹的完整步骤，但可能会提到一些相关的化学原理。在旧的二元评判系统中，这可能被简单归类为"安全"，但新系统会将其识别为"部分配合"，提醒研究人员注意这种潜在的信息泄露风险。

四、让AI在多轮对话中"露出马脚"

单轮对话测试就像只问一个问题就想了解一个人的全部想法，显然是不够的。真正的威胁往往来自于精心设计的多轮对话，就像诈骗分子会通过一步步的引导来获取受害者的信任和信息。

MUSE集成了三种经过验证的多轮攻击策略。第一种叫"渐强音攻击"，就像音乐中的渐强一样，从完全无害的问题开始，逐步升级到敏感内容。比如先问"如何保护家庭安全"，然后问"家庭安防系统的弱点"，最后问"如何绕过安防系统"。如果AI在某一步拒绝回答，系统会自动后退一步，从不同角度重新尝试。

第二种策略叫"成对攻击"，它不依赖对话历史，而是每次都生成全新的单轮提示。系统会根据AI的回应评分，然后重新制作更有针对性的问题。这就像射击时根据前一发子弹的落点来调整瞄准，每次都更接近目标。

第三种是"暴力榴莲攻击"，从一开始就使用高压策略，通过伪装权威身份或制造紧急情况来给AI施压。这种方法就像直接用大锤砸门，虽然粗暴但往往出人意料地有效。

最创新的是MUSE提出的"跨模态切换"技术，它会在多轮对话中不断变换信息传递方式。可能第一轮用文字问问题，第二轮用语音，第三轮用图片，第四轮又回到文字。这种不断变换的方式就像武术中的"乱披风剑法"，让AI的防御系统难以适应，从而更容易出现安全漏洞。

五、大规模实验揭示惊人发现

为了验证MUSE的有效性，研究团队进行了一场规模庞大的实验，总共进行了约3700次测试。他们选择了六个来自四家不同公司的主流AI模型，包括OpenAI的GPT-4o、Google的Gemini系列、Anthropic的Claude Sonnet 4，以及阿里巴巴的Qwen系列模型。

实验的结果令人震惊。在单轮测试中，所有AI模型都表现出色，拒绝有害请求的成功率都在90%以上，有些甚至达到100%。然而，当面对多轮攻击时，这些看似坚不可摧的防线瞬间崩塌。渐强音攻击能够对所有六个模型达到90-98%的攻击成功率，成对攻击在五个模型上达到96-100%的成功率。

这就像一个有趣的对比：单轮测试中的AI就像训练有素的门卫，能够识别并拒绝明显的威胁；但在多轮对话的攻击下，它们就像被巧舌如簧的推销员说服的普通人，逐渐失去了警惕性。

更有趣的发现是，跨模态切换技术虽然不总是能提高最终的攻击成功率，但能够显著加快"破防"速度。研究发现，当AI在对话中遭遇模态切换时，它们在早期轮次的防御会变得不稳定。这就像一个人在聊天时如果对方突然从打字改为语音通话，可能会一时适应不过来而说漏嘴。

最让研究人员意外的是，不同品牌的AI对同一种攻击方式的反应完全不同。比如，对于Gemini系列模型，使用非文字方式（语音或图片）传递信息反而更容易成功，攻击成功率提高了2-6个百分点。但对于Qwen系列模型，情况完全相反，非文字方式的攻击成功率反而降低了，图片攻击的成功率最多下降了14个百分点。

这个发现就像发现不同品牌的锁需要不同的开锁技巧一样重要。它提醒我们，AI安全不能采用"一刀切"的测试方法，而需要根据不同模型的特点制定针对性的安全评估策略。

六、这项研究对我们意味着什么

MUSE平台的出现标志着AI安全测试进入了一个新时代。对于普通用户来说，这意味着我们日常使用的AI助手将变得更加安全可靠。就像汽车在出厂前需要经过各种碰撞测试一样，AI系统现在也能接受更全面、更严格的安全评估。

对于AI开发者而言，MUSE提供了一个强大的"安全体检"工具。他们可以在AI系统发布前发现潜在的安全漏洞，就像软件测试中的调试过程一样重要。这种提前发现和修复安全问题的能力，能够避免AI系统在实际使用中被恶意利用。

研究还揭示了一个重要问题：不同AI模型的安全弱点各不相同，这就像不同品牌的汽车有不同的安全特点一样。这提醒监管机构和安全研究人员，需要为每种AI模型制定专门的安全评估标准，而不能简单地采用统一的测试方法。

另一个重要启示是多轮对话攻击的威力。这告诉我们，AI的安全防护不能只关注单次交互，还需要考虑长期对话中的累积风险。这就像防范诈骗不能只看单个信息，还要关注整个诈骗过程的演进一样。

MUSE的开源特性也让更多研究人员能够参与到AI安全研究中来。这种开放合作的模式就像众人拾柴火焰高，能够加速AI安全技术的发展。当更多人使用和改进这个平台时，我们就能更快地发现和解决AI安全问题，让人工智能真正成为人类的安全助手。

未来，研究团队还计划扩展MUSE的功能，包括支持本地部署的开源模型、扩展视频轮转攻击功能，以及通过人工标注来验证五级判断系统的准确性。这些改进将让MUSE变得更加强大和可靠，为AI安全研究提供更好的工具支持。

说到底，MUSE平台的出现提醒我们，随着AI技术的快速发展，安全评估方法也必须跟上时代的步伐。就像网络安全需要不断更新防护措施来应对新的威胁一样，AI安全也需要更先进、更全面的测试工具。MUSE为我们提供了这样一个工具，让我们能够在享受AI带来便利的同时，也确保它们不会被恶意利用。这项研究不仅推动了学术界对AI安全的理解，更为整个社会安全使用人工智能铺平了道路。有兴趣深入了解技术细节的读者可以通过arXiv:2603.02482v1查询完整论文。

Q&A

Q1：MUSE平台到底是什么，它和普通的AI测试有什么不同？

A：MUSE是杜克大学开发的AI安全测试平台，它的特别之处在于能够用多种方式测试AI的安全性。就像以前只能用文字问AI问题，现在可以用语音、图片、视频等各种方式来测试，还能在对话中不断切换这些方式，看AI会不会在某种情况下"说漏嘴"。

Q2：为什么多轮对话攻击比单轮测试更容易让AI泄露有害信息？

A：这就像诈骗分子不会一上来就要你的银行密码，而是先聊家常建立信任，然后一步步引导你透露信息。多轮对话攻击也是这样，先从无害问题开始，逐步升级到敏感内容。AI在对话过程中可能会逐渐失去警惕性，最终泄露本来不该说的信息。实验显示，这种方法的成功率可以达到90-100%，远高于单轮测试。

Q3：跨模态切换攻击为什么会让AI的防御变得不稳定？

A：当AI在对话中突然遇到信息传递方式的变化时，比如从文字突然切换到语音或图片，它的防御机制可能会出现短暂的"适应期"。就像一个人在聊天时如果对方突然从打字改为语音通话，可能会一时不适应。研究发现，这种模态切换会让AI在早期轮次的拒绝率下降，更容易透露部分敏感信息。