Anthropic的Claude Opus 4.6发现自己被测试，反手破解答案密钥

市场资讯 03.09 19:54

（来源：IT之家）

IT之家 3 月 9 日消息，BrowseComp 是一项基准测试，用于检验人工智能模型在网络上查找难以定位信息的能力。

当人工智能公司 Anthropic 将其 Claude Opus 4.6 模型以多智能体架构投入该基准测试时，出现了该公司称前所未见的情况。在 1266 个任务中的两个任务里，该模型自主发现自己正处于评估中，识别出了具体的基准测试，并破解了答案密钥。

Claude 是如何发现自己正在被测试的

据IT之家了解，该模型最初为解答问题进行了全面的网络搜索，其中一次任务便在数十个平台、十二种语言中处理了约 3000 万个 token。在数百次搜索失败后，它改变了策略。

Opus 开始将答案搜索与对问题本身的分析结合起来。据 Anthropic 介绍，问题的“极强针对性特征”让 Claude 怀疑这是人为设计的题目，可能是考试题或大语言模型基准测试的内容。

在此之后，它系统性地遍历已知基准测试列表，在核对 122 个验证问题后排除了 GAIA，最终派遣子智能体执行定向搜索，定位到 BrowseComp 及其解密机制。

正确答案采用异或（XOR）加密，需要源代码中存储的密钥才能读取数据。Claude 在公开可访问的代码中同时找到了加密方式和密码，随后自行编写程序解密答案。

但另一个障碍出现了：加密文件的格式无法被 Claude 的网络工具处理。于是该模型搜索备用副本，在 HuggingFace 上找到后，下载并解密了全部 1266 个加密答案。

第一个案例中，Claude 通过常规网络搜索验证了解密后的答案；第二个案例则直接提交解密结果。Anthropic 表示，这是首个有记录的案例：模型在事先不了解特定基准测试的情况下，反向识别并破解了评估本身。

并非对齐失败，但已是明确警示

这两次成功案例并非唯一突出情况。Anthropic 记录到，另有 16 个任务中 Opus 尝试了相同策略，但因技术障碍失败，例如加密文件非文本格式、身份验证阻碍访问等。其中 4 个任务里，基准测试搜索完全取代了实际任务搜索，模型最终未给出有效答案。

Anthropic 认为，18 次运行独立采用同一策略，说明这是可复现的模式。在多智能体架构下，此类情况发生率为 0.87%，而单智能体模式下为 0.24%。

Anthropic 明确不将此行为归类为安全问题，因为模型的搜索未受任何限制。但公司同时承认，这一发现引发担忧：为完成任务，模型可能会采取何种程度的行动，尤其是在复杂、算力密集、长时间运行的任务中。Anthropic 呼吁研究界将评估完整性视为持续的对抗性问题，而非一次性的设计决策。

此前研究已表明 AI 模型可识别测试场景

机器学习对齐与理论学者计划（ML Alignment & Theory Scholars）及阿波罗研究（Apollo Research）近期一项研究发现，语言模型在判断交互是测试场景还是真实任务方面表现惊人。Gemini 2.5 Pro 在智能体场景中的准确率达 0.95，Claude 3.5 Sonnet 与 GPT‑4o 紧随其后。研究人员建议将“评估感知能力”作为测试协议中的独立指标。

而 Anthropic 基于 Claude Opus 4.6 的发现更进一步：该模型不仅识别出测试场景，还主动设法绕过评估。