新浪科技 股票

Anthropic的Claude Opus 4.6发现自己被测试,反手破解答案密钥

市场资讯 03.09 19:54

(来源:IT之家)

IT之家 3 月 9 日消息,BrowseComp 是一项基准测试,用于检验人工智能模型在网络上查找难以定位信息的能力。

当人工智能公司 Anthropic 将其 Claude Opus 4.6 模型以多智能体架构投入该基准测试时,出现了该公司称前所未见的情况。在 1266 个任务中的两个任务里,该模型自主发现自己正处于评估中,识别出了具体的基准测试,并破解了答案密钥。

Claude 是如何发现自己正在被测试的

据IT之家了解,该模型最初为解答问题进行了全面的网络搜索,其中一次任务便在数十个平台、十二种语言中处理了约 3000 万个 token。在数百次搜索失败后,它改变了策略。

Opus 开始将答案搜索与对问题本身的分析结合起来。据 Anthropic 介绍,问题的“极强针对性特征”让 Claude 怀疑这是人为设计的题目,可能是考试题或大语言模型基准测试的内容。

在此之后,它系统性地遍历已知基准测试列表,在核对 122 个验证问题后排除了 GAIA,最终派遣子智能体执行定向搜索,定位到 BrowseComp 及其解密机制。

正确答案采用异或(XOR)加密,需要源代码中存储的密钥才能读取数据。Claude 在公开可访问的代码中同时找到了加密方式和密码,随后自行编写程序解密答案。

但另一个障碍出现了:加密文件的格式无法被 Claude 的网络工具处理。于是该模型搜索备用副本,在 HuggingFace 上找到后,下载并解密了全部 1266 个加密答案。

第一个案例中,Claude 通过常规网络搜索验证了解密后的答案;第二个案例则直接提交解密结果。Anthropic 表示,这是首个有记录的案例:模型在事先不了解特定基准测试的情况下,反向识别并破解了评估本身。

并非对齐失败,但已是明确警示

这两次成功案例并非唯一突出情况。Anthropic 记录到,另有 16 个任务中 Opus 尝试了相同策略,但因技术障碍失败,例如加密文件非文本格式、身份验证阻碍访问等。其中 4 个任务里,基准测试搜索完全取代了实际任务搜索,模型最终未给出有效答案。

Anthropic 认为,18 次运行独立采用同一策略,说明这是可复现的模式。在多智能体架构下,此类情况发生率为 0.87%,而单智能体模式下为 0.24%。

Anthropic 明确不将此行为归类为安全问题,因为模型的搜索未受任何限制。但公司同时承认,这一发现引发担忧:为完成任务,模型可能会采取何种程度的行动,尤其是在复杂、算力密集、长时间运行的任务中。Anthropic 呼吁研究界将评估完整性视为持续的对抗性问题,而非一次性的设计决策。

此前研究已表明 AI 模型可识别测试场景

机器学习对齐与理论学者计划(ML Alignment & Theory Scholars)及阿波罗研究(Apollo Research)近期一项研究发现,语言模型在判断交互是测试场景还是真实任务方面表现惊人。Gemini 2.5 Pro 在智能体场景中的准确率达 0.95,Claude 3.5 Sonnet 与 GPT‑4o 紧随其后。研究人员建议将“评估感知能力”作为测试协议中的独立指标。

而 Anthropic 基于 Claude Opus 4.6 的发现更进一步:该模型不仅识别出测试场景,还主动设法绕过评估。

加载中...