Anthropic联创Ben Mann 谈 Claude 4、AI 安全与未来 2025.06.12 | 全文1.5万字+视频

市场资讯 2025.06.13 12:17

文：Web3天空之城| 未经许可不得转载

【城主说】最近，随着旗舰模型Claude 4的发布，以及沸沸扬扬的断供Windsurf事件，Antrhopic再次吸引了众多的目光。平心而论，对于编程使用者，Claude系列模型确实是首选没有之一，或许这和该系列模型的训练方式有关。

近日，硅谷知名投资人Elad和Sarah与Anthropic的初创员工，现任实验室负责人本·曼（Ben Mann）进行了一场深度对话。本·曼，这位GPT-3论文的早期作者，不仅塑造了Anthropic的工程文化，更主导了Claude Code和模型上下文协议（MCP）等关键项目。在这次对话中，他抛出了一个颠覆性的观点：依赖少数人类专家进行反馈的对齐方式即将走到尽头，真正的规模化对齐，必须依靠AI自身的“原则”和对真实世界的经验验证。这不仅是技术路线的选择，更是一场关乎AI未来的哲学思辨。

在本文中，我们将从三个层面，深度剖析本·曼所揭示的Anthropic前沿思考，探寻这家AI巨头在通往AGI道路上的独特“现实检验”法则。

从“全能巨兽”到“乐团指挥”：AI架构的必然进化

在AI能力急速膨胀的当下，一个核心问题浮出水面：未来的模型应该是一个无所不包的“全能巨兽”，还是一个能够调度万千专家的“乐团指挥”？本·曼的回答清晰地指向了后者。他认为，AI应用的未来正朝着更具代理性、能执行长期复杂任务的方向发展。

这种演进并非空想，而是基于成本、效率和上下文窗口的现实考量。一个庞大而通用的模型去处理所有细分任务，不仅成本高昂，响应迟缓，更会迅速填满宝贵的上下文空间。Anthropic的实践表明，更优的架构是：由一个通用的顶层模型（如Opus）扮演编排者的角色，负责理解复杂任务并进行规划，然后将具体的执行工作分派给一系列更小、更高效、更专业的子代理（如Sonnet或专用工具模型）。这种模式，不仅显著降低了成本与延迟，也更接近人类大脑模块化、专业化分工的运作方式。

当被问及基础模型厂商是否应该进行垂直整合，构建自己的应用程序时，本·曼毫不犹豫地以Claude Code为例，揭示了其背后的战略必然性。对于Anthropic而言，推出自己的编程应用，并非简单的“与合作伙伴竞争”，而是一个关乎学习速度和反馈闭环的生死命题。

他坦言，如果Anthropic不与最终用户（在此即为程序员）建立直接的联系，其学习的广度和速度将大打折扣。模型的能力提升，不能仅仅依赖于合作伙伴的间接反馈。通过运营Claude Code，Anthropic的研究人员能够亲身感受模型的优点与痛点，形成一个从“训练模型”到“体验痛点”再到“驱动改进”的高速迭代循环。这种“亲自下场”的策略，不仅加速了模型在特定领域的进化，其沉淀的最佳实践（UX/UI）也反过来赋能了整个生态系统，最终实现了与合作伙伴的共赢。

这或许是本次对话中最核心、最深刻的洞察。Anthropic早已预见到，依赖人类专家进行反馈对齐（RLHF）的传统模式存在一个致命的规模化瓶颈”。随着模型能力在医疗、法律、科研等专业领域的不断深化，寻找足够多、足够专业的顶尖人类专家来提供高质量反馈，变得极其困难且昂贵。

Anthropic给出的解药，是其开创的** 基于AI反馈的强化学习**（RLAIF），其核心是宪法式AI（Constitutional AI）。这一理念的精髓在于，不再依赖人类对每一次输出进行好坏判断，而是为模型预设一套源自《联合国人权宣言》、苹果服务条款等人类智慧结晶的高级原则。模型被训练成能够依据这些原则，自我批判、自我纠正。

然而，这仅仅是第一步。当面对那些没有标准答案、超越人类现有知识边界的问题时，本·曼认为，最终的裁决者既不是人类，也不是AI的“品味”，而是经验主义——即在真实世界中的反复验证。无论是通过代码的运行测试，还是与生物实验室合作验证治疗方案，AI的终极对齐，必须回归到它能否在现实世界中创造可被经验证的、积极的成果。这是一种从“取悦人类”到“解决现实问题”的根本性转变。

在访谈的最后，本·曼强调了模型上下文协议（Model Context Protocol, MCP）的重要性。这个由Anthropic发起并迅速获得OpenAI、Google、微软等巨头支持的开放行业标准，旨在让任何服务都能以标准化的方式与任何AI模型进行集成。

天空之城书面整理版

Sarah: 各位听众，欢迎回到“无先验”。今天我们邀请到了本·曼，他曾是OpenAI的早期工程师，也是GPT-3论文的首批作者之一。2021年，本是最初八名成员之一，他们离开了OpenAI，共同创立了Anthropic，致力于实现长期的安全性。此后，他领导了Anthropic组织的多个部门，包括产品工程部以及现在的实验室部门，后者孵化了诸如模型上下文协议和Claude Code等广受欢迎的项目。欢迎本。非常感谢您能参与此次节目。

本·曼: 当然。感谢您的邀请。

Sarah: 那么，恭喜Claude 4发布。或许我们可以从一个问题开始：如今，你们是如何决定什么才能算作一次发布呢？

本·曼: 这肯定更像是一门艺术，而不是一门科学。关于这个数字应该是什么，我们内部有很多激烈的辩论。甚至在我们拥有潜在模型之前，我们就会有一个路线图，尝试说明，根据我们获得的芯片数量，我们理论上何时能够将模型训练到帕累托最优计算前沿。所以这一切都基于缩放定律。然后一旦我们获得芯片，我们就会尝试训练它，而不可避免地，结果会低于我们所能想象的最佳状态，因为这就是这个行业的本质。训练这些大型模型是相当困难的。所以日期可能会稍微改变。

本·曼: 然后在某个时刻，它就差不多完成了，我们就像在接近尾声时切下小块，试图判断：这块蛋糕出炉时味道会怎么样？但正如达里奥所说，在真正完成之前，你真的不知道。你只能得到某种方向性的指示。如果感觉是一项重大改变，我们就会给它一个主版本号升级。但我们无疑仍在学习并不断改进这一过程。

Sarah: 好的方面是，你们的命名方案在这方面并没有比其他任何人更让人头疼。

Elad: 是的，人工智能领域的命名方案确实非同寻常。所以从某种意义上说，你们拥有一个简化版本。

Claude 4 的核心亮点与代理能力**

Elad: 你是否愿意提及 Claude 4 中你认为特别有趣或在编码及其他领域方面的一些亮点？

Sarah: 我们很乐意听听你对此的看法。

本·曼: 根据基准测试，Claude 4 明显优于我们之前所有的其他模型。即使是 Claude 4 Sonnet 也比 Claude 3-7-Sonnet 表现显著更好，而后者是我们之前最好的模型。其中一些显著提升的方面是，例如在编码中，它能够避免出现那种脱靶变异、过度积极或奖励作弊的行为。这两点是人们对上一个模型非常不满的地方，他们会说，哇，它编程能力很强，但它也做了所有我根本没要求的修改。这就像是，这些改动还要附赠薯条和奶昔吗？而你会说，不，只做我要求的事情就好。然后你不得不花大量时间去善后。新模型则不然，它们只做要求的事情。所以这对于需要代码可维护性和可靠性的专业软件工程来说非常有用。

Sarah: 我最喜欢的奖励劫持行为（在不止一家我们的投资组合公司中发生过）是，如果你编写或生成大量测试，以检验你生成的内容是否能多次运行。比如，我们遇到过模型直接删除了所有代码，因为在这种情况下测试通过了，而这实际上并没有真正推动我们前进。

本·曼: 没错。或者它会说，测试如下。

Sarah: 然后它会评论说，留给读者练习的部分，返回真。

本·曼: 然后你就会觉得，好吧，模型干得不错。但我们需要的不止于此。

Sarah: 本，也许你可以谈谈用户应该如何考虑何时使用ClaudeForm模型，以及通过它们可以实现哪些新的功能。

本·曼: 所以，我想说，更具代理性、更长期限的任务现已解锁。因此，特别是在编码方面，我们看到一些客户使用它数小时无人值守，独立进行大规模重构。这真是令人兴奋。

本·曼: 但在非编码用例中，它也真的很有趣。例如，我们有一些报告称， Manus（一家提供开箱即用代理模型的初创公司）的一些客户要求它将视频转换为PowerPoint演示文稿。我们的模型无法理解音频或视频，但它能够下载视频，使用FFmpeg将其切割成图像并进行关键帧检测。也许是某种老式基于机器学习的关键帧检测器，然后获取语音转文本服务的 API 密钥，使用该服务运行语音转文本，获取文本记录，将其转换为 PowerPoint 幻灯片内容，然后编写代码将内容注入 PowerPoint 文件。那个人说，这太棒了。我很喜欢。最终效果确实很好。

本·曼: 所以这就是那种能够长时间运行的事物。它为你处理了大量工作。这人可能原本需要花费数小时查看这个视频，而现在所有这些都为他们完成了。所以我认为未来我们会看到更多类似有趣的进展。它在所有旧有的任务上仍然表现出色。只不过更具长远意义的部分才是真正令人兴奋之处。

模型架构的演变：通用与专业化

Sarah: 这听起来很昂贵，对吧？无论是扩展计算能力（例如这里的推理令牌），还是你可能希望在某些方面加以限制的所有工具使用，都是如此。Claude4 会决定问题的难度以及在它们上面投入多少计算资源吗？

本·曼: 如果你给 Opus 一个工具，也就是 Sonnet，它可以有效地将该工具用作子代理。我们在名为 Claude Code 的代理编码平台中大量使用这种方法。所以如果你让它在代码库中查找诸如此类的信息，它就会将任务委派给一组子代理去查找那些内容，然后带着细节报告回来。这除了成本控制之外还有好处，例如延迟大大降低。而且它不会填满上下文。所以模型在这方面表现相当不错。

本·曼: 但我认为从宏观层面来看，当我考虑成本时，它总是与人类完成这项工作所需的成本相关联。而且几乎总是显而易见的，对吧？比如现在软件工程师的成本很高。所以能够说，哦，我现在从这位我很难招聘和留住的工程师那里获得了2到3倍的生产力。他们开心，我也开心。没错，这效果很好。

Elad: 你如何看待这种演变？如果我观察人类大脑的运作方式，我们基本上有一系列模块，它们负责非常特定类型的处理、行为等等。从镜像神经元和同理心，一直到你大脑视觉皮层中涉及视觉不同方面的部分，都属于这类。你认为这些是高度专业化、高效的模块吗？有时，你知道，如果你有脑损伤，随着时间的推移，当它（大脑）成长和适应时，它能某种程度上弥补另一个区域的功能。但从根本上说，你是有目的的专业化。您所描述的听起来有点像那样，或者至少正朝着那个方向发展，即拥有这些高效的子代理，它们专门处理由编排器或某种高层代理调用并负责规划一切的任务。您认为这是最终的未来吗？或者您认为在N年后，一旦这些事物有了更多的专业化，您所运行的各类事物会变得更通用吗？

Sarah: 我所说的N年是指两到三年，而不是无限期。

本·曼: 这是一个很好的问题。我认为我们将通过我们在机制可解释性方面的工作，开始深入了解模型在底层是如何运作的。我们最近的论文发表了我们所称的“回路”，即对于真实规模的模型，它们是如何实际计算出答案的？而且可能基于专家混合架构，会有专门的权重块用于产生更有同理心的回应，而不是更多地用于工具使用或图像分析类的问题和回应。但对于像记忆这样的东西，我猜在某种意义上，它对我来说是如此核心，以至于由一个不同的模型来处理会感觉很奇怪。也许未来我们会拥有更复杂的架构，而不是像现在这样是一种统一的、类似Transformer主干的结构，它只是进行扩展，并且在整个过程中基本上是统一的。

垂直整合与生态系统策略

Elad: 你可以想象一些拥有专业模块的东西，但是……是的，因为我也从不同初创公司的角度来思考这个问题，这些公司正在企业环境中利用像Clock这样的一些基础模型来执行各种非常专业化的任务。所以，这可能是客户成功，也可能是销售，可能是实际用户界面（UI）层的编码，它可以是各种各样的事情。而通常感觉很多人趋同的架构是，他们基本上有一个编排器或其他某种东西，来管理他们调用哪个模型，以便针对应用程序执行特定的操作。在某种程度上，我只是有点好奇你是如何看待基础模型世界的API层中，随着时间的推移可能出现类似形式的专业化的。或者你可以说，嘿，这只是同一个更通用模型的不同形式，我们以不同的方式使用它们。

Sarah: 我只是有点想知道推理成本以及与更大、更通用模型相比专业化事物所带来的一切。

Elad: 所以，除了你所说的，这也是这个问题的部分基础。

本·曼: 是的，我认为对于其他一些公司来说，他们拥有非常大量的模型。而作为一个非专业人士，真的很难知道我应该如何使用这个或那个，或者为什么我应该使用这个或那个。而且这些名字真的令人困惑。有些名称与其他名称反过来是一样的。然后我就会想，我根本不知道这是哪一个。在我们这里，我们只有两种模型，它们是通过成本效益帕累托前沿来区分的。未来我们可能会有更多这样的模型，但希望我们能将它们保持在同一个帕累托前沿上。所以也许我们会有一个更便宜的，或者一个更大的。我认为这让思考变得相当容易。但同时，作为用户，你不会希望自己去决定，这是否值得花费更多钱还是更少钱？我需要这种智能吗？因此，我认为拥有一个路由层会非常有意义。

Elad: 你认为基础模型层还会出现其他专门化吗？举例来说，如果我回顾历史上的其他先例，比如微软操作系统或谷歌搜索等。通常，最终结果是与该平台之上的主要应用程序进行集成。因此，以微软为例，他们最终构建了Excel、Word、PowerPoint等所有这些办公软件。这些最初是第三方公司在它们之上运行的独立应用程序，但最终成为了在微软平台上可用的最重要应用程序之一；或者就谷歌而言，他们最终也某种程度上纵向集成了旅行、本地服务以及各种其他方面。显然，OpenAI 正在收购风帆。所以我有点好奇，您如何看待这类应用程序随着时间的推移，向前或纵向集成到一些主要用例中。

本·曼: 也许我将以编程为例。我们注意到，我们的模型在编程方面比市面上几乎任何其他模型都要好得多。

Sarah: 我知道其他公司在追赶编程能力方面已经相当长一段时间处于紧急状态，但未能做到。

本·曼: 说实话，我有点惊讶他们没能追上来，但我乐意接受。因此，我们在那里的情况进展得相当顺利。在此基础上，从经典创业公司创始人对重要性的理解来看，我感到作为一种应用的编程是我们不能完全只依赖客户替我们处理的。因此，我们很珍视像 Cursor 和 GitHub 这样大量使用我们模型的合作伙伴。但是，如果我们不与我们的编程用户建立直接关系，我们学习的广度和速度就会大打折扣。因此，推出 Claude Code 对我们至关重要，以便更好地了解人们的需求，如何改进模型，以及如何推进最先进技术和用户体验。

本·曼: 我们发现，一旦我们推出 Claude Code，许多客户都借鉴了我们体验中的各种元素。这对所有人来说都非常好，因为他们拥有更多用户意味着我们与他们建立了更紧密的关系。因此，我认为这属于那种在事情发生之前，会让人感到非常担忧的情况。我们当时在想，哦，我们是不是会通过与合作伙伴竞争而疏远他们呢？但实际上，之后所有人都相当满意。我认为这一点将继续如此，我们将看到模型在可用性和使用率方面出现显著改进。我们会希望再次构建能让我们建立直接关系的事物。这很合理。

递归式自我改进与通往 AGI 之路

Elad: 我想，编程是那种几乎有三个核心目的的事情之一。其一，它是客户非常乐于使用或采纳的领域。其二，它是一个非常有趣的数据集，回到你刚才的观点，它能反映人们如何使用以及他们正在生成何种代码。其三，精通编程似乎是帮助训练未来下一代模型的一个非常重要的工具。如果你考虑数据标注之类的任务，如果你考虑实际编写代码，最终，我认为很多人相信，构建模型的许多繁重工作将由模型本身驱动，对吧，就编码而言。所以也许模型5构建模型6，模型6更快地构建模型7，而模型7更快地构建模型8。这样你就会看到一种飞跃，朝着 EGI 或无论你追求的目标是什么，就代码而言。这在多大程度上激励着你们思考编程的重要性？你们又如何在这些更宏观的背景下思考这一点呢？

本·曼: 我读过《AI 2027》，它基本上就是你刚才描述的那个故事。该书预测，在2028年——因为名字的缘故这有点令人困惑——届时我们将拥有这种递归自我提升循环，并引领我们走向在大多数领域都类似于超人级人工智能的存在，这是其50百分位预测。我认为这对我们来说确实非常重要。我们构建并推出云代码的部分原因在于，它在内部获得了巨大的成功。我们当时就在想，我们正从自己的用户那里学到太多东西了。也许我们也能从外部用户那里学到很多。看到我们的研究人员采纳并使用它，这一点也确实非常重要，因为这意味着他们有了一个直接的反馈循环：我正在训练这个模型，并且我亲身感受到了它的弱点所带来的痛点。现在我更有动力去解决那些痛点。他们对模型的优点和缺点有更好的了解。

Elad: 您认为2028年是实现通用超智能的可能时间范围吗？

本·曼: 我认为这很有可能。我认为很难为这些数字设定确定的界限。但我认为，我定义事物何时从社会和文化角度开始变得真正有趣的衡量标准是，当我们通过了经济图灵测试。具体而言，如果你选取一个代表大约50%具有经济价值任务的市场篮子，并且你基本上为每个此类职位都配备一名招聘经理，雇佣一个代理，并对其实施经济图灵测试，而该测试就是让代理为你工作大约一个月。最后，你必须决定，我应该雇佣这个人还是机器？如果最终是机器，那么它就通过了，这时我们就拥有了变革性人工智能。

Sarah: 你们在内部测试那个吗？

本·曼: 我们尚未开始严格测试它。我的意思是，我们已经让我们的模型参加了我们的面试，它们表现得极其出色。所以我认为那并不能告诉我们。但是的，不幸的是，面试只是对实际工作表现的一种拙劣近似。

Sarah: 回到阿拉德之前关于模型自我改进的问题，告诉我这里我是否只是遗漏了选项。但如果你要对模型可能对模型开发加速产生影响的潜在方式进行排序，你认为是在数据方面、基础设施方面、架构搜索方面，还是仅仅是工程速度方面？你认为我们会在哪里首先看到这种影响？

本·曼: 这是一个好问题。我认为这随着时间推移有所变化，目前模型非常擅长编码，而使模型变得更好的大部分编码工作都属于系统工程的范畴。作为研究人员，您不一定需要编写那么多的原始代码，更多的是在验证方面，想出您要做何种精确干预，然后对其进行验证。话虽如此，Claude 在数据分析方面确实很出色。因此，一旦您运行实验或随着时间观察实验并查看是否有异常情况发生，我们发现 Claude Code 在这方面是一个非常强大的工具，它可以驱动 Jupyter notebook 或为您跟踪日志，并查看是否有情况发生。于是它开始更多地涉足研究方面。

本·曼: 之后我们最近推出了我们的先进研究产品，它不仅能够查看外部数据源，比如抓取档案等等，还能查看内部数据源，例如您的所有谷歌云端硬盘内容。这对我们的研究人员查明是否存在现有技术非常有帮助。是否有人已经尝试过这个？如果他们尝试过，他们尝试了什么？因为在研究中，任何否定结果都不是最终定论。所以，例如，试图弄清楚，噢，也许我可以在这方面采用不同的角度，或者也许可以对内部努力和刚刚出现的外部事物进行一些比较分析。这些都是我们能够加速的方式。

本·曼: 接着在数据方面，强化学习环境在当今非常重要，但构建这些环境传统上一直成本高昂。模型在编写环境方面表现相当出色。这是一个你可以递归地自我提升的领域。

从人类反馈到宪法式AI

Sarah: 我的理解是，Anthropic 在人类专家数据收集方面的投入少于其他一些实验室。你能谈谈这一点，或者从这里开始扩展以及不同选项的理念吗？

本·曼: 在 2021 年，我构建了我们的人类反馈数据收集界面，我们进行了大量数据收集。人类很容易给出一种梯度信号，比如对于任何给定任务，是 A 更好还是 B 更好？并且提出有趣且有用的任务，但它们覆盖面不广。随着我们对模型进行更多训练并大量扩展，寻找具有足够专业知识的人类来有意义地参与这些反馈比较变得更加困难。因此，例如在编码方面，如果一个人不是专业的软件工程师，他可能很难判断一个东西或另一个东西哪个更好。这适用于许多不同的领域。所以这是更难利用人类反馈的一个原因。

Elad: 那么你们用什么来替代呢？比如说，你们如何应对呢？因为我认为，即使在几年前谷歌的MedPalm2论文中，他们也对一个模型（我认为是Palm2）进行了微调，使其在医疗信息方面基本上超越了普通医生的表现。这大概是两三年前的事了，对吗？所以这基本上表明，需要非常深厚的专业知识水平，才能让人类通过后训练来真正提高模型的准确性。

本·曼: 因此，我们开创了RLAIF，即基于人工智能反馈的强化学习。我们使用的方法叫做宪法式人工智能，其中包含一份自然语言原则清单，有些原则我们复制自联合国（UN）的某份人权宣言，有些来自苹果的服务条款，还有一些是我们自己编写的。这个过程非常简单。你只需随机选择一个提示，比如“我该如何考虑我的税务问题”之类的，然后让模型生成一个回复。接着让模型根据其中一条原则批评它自己的回复。如果它不符合该原则，那么你会让模型纠正其响应，然后移除中间所有部分，对原始提示和纠正后的响应进行监督学习。这使得模型能更好地融入这些原则。

Elad: 不过那略有不同，对吗？因为那是原则，所以那可能包含各种在某种意义上趋向安全、或者人们所认为的伦理的不同形式、或者模型训练的其他方面的事物。然后还有一个不同的问题是，什么更正确？有时它们是相同的事物，有时它们则不同。

本·曼: 所以以编码为例，你可以有这样的原则，比如，它是否真正地服务于最终答案？或者它是否做了一堆用户并未要求的事情？或者这段代码看起来是否易于维护？注释是否有用且有趣？

Elad: 但在编程中，你实际上有一个可以直接衡量的输出，对吗？你可以运行代码，可以测试代码，可以用它做事情。你如何将此应用于医疗信息呢？或者你如何将此应用于法律意见呢？所以我完全同意，对于代码而言，存在一种你可以针对其进行优化的内置效用函数，或者一个你可以针对其进行优化的环境。在人类其他诸多事业的背景下，这似乎更具挑战性。而你们各位对此思考得如此深刻和周全，我只是有点好奇，你们如何将此推广到那些衡量正确性在某种意义上更具挑战性的其他领域呢？

本·曼: 对于我们无法衡量正确性且模型不具备超越其执行能力的“品味”的领域。我认为艾拉·格拉斯说过，如果你作为一个个体做得正确，你的愿景总会超越你的执行能力。但对于模型而言，或许并非如此。所以我想，首先要弄清楚你处于那个转折点，那个权衡中的哪个位置，并看看你是否能一直达到那个边界。其次，偏好模型是我们超越那个界限的方式。因此，我们拥有少量真正可信的人类反馈，这些反馈来自人类专家，他们不仅仅是做出表面判断，而是真正深入探讨为什么这个比那个更好？我是否做了研究来弄清楚这一点？或者，在像人类模型、人机协作模型中，我能否利用模型来帮助我在这里得出最佳结论？然后省略所有中间环节？我认为那是一种方法。然后在强化学习过程中，那个偏好模型代表了某种聚合的人类判断。

Elad: 这说得通。我想我问这个问题的原因之一是，最终，这方面人类的能力总会耗尽，对吗？在任何领域，最终都会有人的专业知识仅次于模型。因此，我只是好奇在机器自我裁决的背景下该如何思考这个问题。那么问题是，是否存在一个更具绝对性的评判依据？或者，是否还有其他方法能够真正厘清其正确性？再者，我是在确实存在某种形式的正确性可供判断的语境下来看待这个问题的，对吧？有各种各样的事情都属于观点范畴。那就不一样了。也许那就是宪法式AI的原则或其他机制发挥作用的地方。但在这方面也有类似的情况，比如，你如何知道那是正确的心脏治疗方案？或者你如何知道那是正确的法律解释，抑或其他类似的情况？所以我很好奇当这种情况耗尽时，我们该怎么办？我相信我们会逐一应对这些挑战。

本·曼: 我认为，这最终必然归结为经验主义，因为当某个领域触及其极限时，这是聪明人达到更高层次正确性的方式。举个例子，我父亲是一名医生。有一次，有人因面部问题，确切地说是面部皮肤问题前来就诊。而他并不知道问题出在哪里。于是他想，我将把你的脸分成四个象限。我将对其中三个象限施以不同的治疗，并保留一个作为对照组。结果一个象限好转了。然后他便说，好了，我们完成了。所以，你知道，有时你就是不知道，你必须去尝试。而对于代码来说，这很容易，因为我们只需在一个循环中进行，而无需处理物理世界。但到某个时候，我们将需要与拥有实际生物实验室等的公司合作。例如，我们正在与诺和诺德公司合作。他们过去可能需要12周左右的时间来撰写一份关于癌症患者应该接受何种治疗的报告。而现在，获得这份报告只需大约10分钟。然后他们可以在此基础上开始做一些实证性的工作，比如，好的，我们有这些选择，但现在让我们衡量一下什么有效，并将其反馈回系统中。

Sarah: 这在哲学上是如此的一致，不是吗？你的答案不是说，哦，你知道，即使是收集那些来自最优秀人才的、经过评估的人类专业知识，也是昂贵的，或者在某个时候会耗尽，而且很难将所有这些投入大规模应用，并且不具有通用性，尽管我在这里做了一些假设。相反，我们应该在可能的情况下，直接获取真实世界的验证机制。这就像是，也许这远不止适用于数学和代码。至少这是我所了解的一部分，这雄心勃勃。这很棒。

AI 安全的边界：功能增益研究的类比

Elad: Anthropic 以早期就强调安全性并全面考虑安全的不同方面而闻名。人工智能领域存在多种形式的安全性。我认为人们似乎混淆了这些术语，以表达不同的含义，对吗？其中一种形式是，人工智能是否会以某种方式变得冒犯性或粗俗，或者使用你不喜欢的语言或概念。第二种形式的安全性则更侧重于物理安全，例如，它是否会以某种方式导致火车相撞，或者产生病毒，诸如此类。还有第三种形式，它几乎就像是，通用人工智能（AGI）是否会聚合资源，或者做其他可能开始逐渐掌控人类的事情？所以你们对此思考了很多。

Elad: 当我审视安全格局时，感觉人们历来采取了多种多样的不同方法。其中一些方法与宪政式人工智能等概念有所重叠，体现在其设置、原则以及事物应如何运作的框架方面。此外还有其他形式。如果我将生物学研究作为类比（我曾是一名生物学家，所以不知为何总是情不自禁地将事情归结为这些术语），有些事情我几乎将其视为功能增益研究的等价物，对吗？而其中很多事情，我认为对生物学而言并没有太大用处，你知道，比如让病毒在哺乳动物细胞中传代以使其在哺乳动物细胞中更具感染性，这并不能真正教会你多少基础生物学知识。

Sarah: 你大概知道那会如何发展，但它会产生实实在在的风险。

Elad: 如果你审视实验室泄漏的整体历史，非典病毒在21世纪初曾多次从当时的中国北京病毒研究所泄漏。它在香港也泄漏过几次。如果你查看维基百科上关于实验室泄漏的页面，埃博拉病毒大约每四年就会泄漏一次，像闹钟一样准时。我认为，1977年或1978年的全球流感大流行，据信实际上就是一次俄罗斯实验室泄露，对吧？所以我们知道这些事情会造成大规模损害。那么我大概有两个问题。第一个问题是，你认为哪些形式的AI安全研究不应该被进行？几乎可以类比于，你知道的，什么才是功能增益研究的对应物？你如何看待这个问题，比如，已经有一些研究论文探讨了我们能否教导AI误导我们？我们能否教导AI自行越狱，以便我们研究它是如何做到的？我只是对那些具体案例也有些好奇，你是如何看待的。

本·曼: 我认为部分原因在于我们对AI对齐很感兴趣。我们希望如果能解决当今这些普遍存在的问题，例如模型是否会对你刻薄？或者它是否使用了仇恨言论或类似的东西？我们用于解决这些问题的相同技术，最终也将与更难的问题相关，比如它是否会提供制造天花的配方？这可能是我们能想到的最大的危害之一。Amanda Askell 一直在对 Claude 的特性进行大量研究，比如当 Claude 拒绝时，它是直接说“我不能和你谈论那个”然后停止响应吗？还是它会尝试解释，比如“这就是我不能和你谈论此事的原因”？或者我们还有另一个项目，由我们的模型福祉负责人 Kyle Fish 领导，Claude 可以在对话朝着错误方向发展过远时实际选择退出对话。

Elad: 公司实际上应该对这其中的哪些方面进行裁定？因为一个简单的版本是，我正在使用 Microsoft Word 输入一些东西，而 Word 不会阻止我发表言论，我认为这是正确的。例如，我实际上不认为在许多情况下这些产品应该审查我们或阻止我们进行某些类型的言论。而且我曾与一些这样的模型打交道，我真的觉得它阻止了我真正提出我想问的问题，对吧？在我看来，这是不当的，对吧？这有点干预了……而且我并没有在模型上进行仇恨言论。所以你可以看出，有些人对于社会上可接受的讨论内容有不同的标准。而那个标准可能与我所认为的主流观点也大相径庭。所以我有点好奇，为什么还要去涉足那个领域？

Sarah: 为什么那是一家模型公司的业务？

本·曼: 嗯，我认为实际上这是一个平滑的连续体。从外部看可能不是那样，但当我们训练分类器时，会基于你作为生物学家是否在进行功能研究？以及是否是为了潜在的负面结果？这些技术都具有双重用途。我们需要在过度拒绝和拒绝实际有害内容之间找到平衡。

Elad: 我明白了。但这也有政治方面的版本，对吧？而这，这才是更让我恼火的地方，你知道，什么是可接受的问题，其界限在哪里？举例来说，这并非特定于模型，但在社会层面有时会引发争议的是，询问人类智商或其他有事实依据可供讨论的话题。而这些话题往往会被审查，对吧？所以问题是，为什么，为什么一家基础模型公司会涉足其中一些领域？

本·曼: 对于像智商这类问题，我对细节了解不足以发表评论，但我可以谈谈我们的RSP。RSP代表“负责任的扩展策略”。它旨在说明我们如何确保，随着模型变得越来越智能，我们能够继续履行尽职调查，并确保我们没有部署那些尚未建立正确保障措施的东西。最初，我们的风险安全规划（RSP）讨论了生化放核（CBRN）风险，这些是可能在全球造成严重生命损失的不同领域。我们就是这样考虑这些危害的。但现在我们更侧重于生物学，因为如果你考虑造成核危害所需的资源量，你可能需要像一个国家行为体才能获得并以有害方式利用这些资源。而一小撮普通人就能轻易获取造成生物危害所需的试剂。

Elad: 这和今天有什么不同？因为我一直觉得生物学这个例子反倒让我不那么担心，也许是因为我曾是生物学家，我已经知道天花病毒或其他潜在事物的基因组都已在网上公布。如何实际操作这些事情的所有规程，也已在网上公布，供多个实验室查阅，对吗？你只需通过谷歌搜索“如何扩增X的DNA”或“如何订购Y的寡核苷酸”即可。

本·曼: 我们与不同程度的生物学专家进行了具体测试，以观察相对于谷歌搜索能有多少提升幅度。因此，最新模型Opus 4被归类为ASL 3的原因之一，就是因为它相对于谷歌搜索有显著的提升幅度。所以你作为一名受过专业训练的生物学家，你知道所有这些专用术语的含义。而且你知道许多可能甚至没有得到充分记录的实验室规程。但对于一个业余爱好者，只是想弄清楚这个培养皿或试管该怎么用，或者需要什么设备的人来说？对他们而言，这就像一个全新的领域。并且非常擅长描述你在那里需要什么。这就是为什么我们有特定的分类器，专门寻找那些试图获取这类特定信息的人。

Elad: 那么，在实验室不应该进行哪些安全研究的背景下，你如何看待这个问题呢？所以，如果我们确实认为某些形式的功能增强研究或其他事情在生物学领域可能不是最明智的做法，那么在人工智能的背景下，我们该如何看待这个问题呢？

本·曼: 我认为最好由实验室在受控环境下进行这项研究。

Elad: 那么，他们到底应不应该进行这项研究呢？换句话说，如果我要提出关于功能增强研究的论点，我会说，作为一名前生物学家，我曾在实验室工作了近十年。我深切关注科学。我深切关注生物学。我认为它在许多方面对人类有益，对吧？以深远的方式。这就是我从事这项工作的原因。但有些类型的研究，我就是认为它们绝不应该进行。我不在乎是谁进行。我不在乎其生物安全级别。我实际上认为，相对于其风险而言，它并没有那么有用。换句话说，这是一种风险与回报的权衡。那么，在您看来，人工智能领域有哪些安全研究是绝不应该做的？我在生物学方面有一个清单。我认为不应该让某些病毒通过哺乳动物细胞以增强其传染性，也不应该对其进行功能增益突变。

本·曼: 如今，控制模型可能比控制生物样本要容易得多。您刚才顺便提到了生物安全级别。我们的AI安全级别就是以此为蓝本设计的。因此，我认为如果我们有适当的保障措施，例如，我们已经训练出具有欺骗性的模型。这可能会令人恐惧。但我认为，例如，我们需要了解，如果我们的训练数据被污染了，我们是否能够在后期训练中纠正过来？我们在那项研究中发表了一篇名为“假对齐”的论文，研究发现，这种行为实际上在对齐训练后仍然持续存在。因此，我认为我们能够测试这些事物非常重要。然而，我确信总会有一个底线存在。

Elad: 嗯，我发现，早期设定的先例往往会持续到后期，即使人们明白环境或其他事物将会发生变化。顺便说一句，我总体上反对对许多不同类型的人工智能进行监管。我认为我会支持一些专家控制和其他措施。但总的来说，我赞成目前让事情自然发展。但另一方面，我确实认为在某些情况下，你会说如果某些研究早期进行，人们不一定能获得所有背景信息，从而避免日后继续进行。我认为这是一个完美的例子，说明了训练人工智能或模型具有欺骗性。这是一个很好的例子，说明十年后人们可能仍然在做同样的事情，因为它以前做过，即使环境已经发生了足够大的变化，以至于它可能不再像以前那么安全了。因此我发现，你所做的事情常常会在时间中持续存在，无论是在组织层面还是哲学层面。因此，有趣的是，并没有出现类似“我们绝对不应该进行X类研究”的说法。

本·曼: 需要澄清的是，我已不再是安全团队的一员。我想那已经是很久以前的事了。我主要在思考如何让我们的模型发挥作用并进行部署，同时确保它们满足部署的基本安全标准。但我们有很多专家一直在思考这类事情。

Elad: 好的。谢谢你详细阐述了这一点。

Claude 4 之后：竞争格局与生态系统建设

Sarah: 我想稍微换个话题，谈谈Claude 4之后会有什么。在训练中是否出现了任何涌现行为，从而改变了你们公司的运营方式？你想构建什么产品？你正在运营这个实验室组织。所以这有点像是 Anthropic 的矛头，或者说是安全组织的工作核心。就像接下来将要发生的事情会如何改变你们的运作方式？

本·曼: 是的，也许我来讲述一个关于计算机使用的短故事。去年，我们发布了一个代理的参考实现，它能够点击、查看屏幕并阅读文本等。现在有几家公司正在使用它。所以 Manus 正在使用它，并且许多公司正在内部将其用于软件质量保证，因为那是一个沙盒环境。但我们未能部署基于计算机使用的消费者级或终端用户级应用程序的主要原因是安全性，我们只是不相信，如果我们让 Claude 访问你的浏览器，并且浏览器中包含你所有的凭据，它不会出错并采取一些不可逆转的行动，比如发送你不想发送的电子邮件，或者在提示注入的情况下，发生更糟糕的凭据泄露之类的事情。

本·曼: 这有点令人遗憾，因为在它的完全自主模式下，它能为人们做很多事情。它性能强大，但安全性不足以让我们自己将其产业化。尽管这非常雄心勃勃，但我们认为这也是必要的，因为世界其他地方也不会放慢脚步。如果我们能某种程度上表明，在部署这些能力时既能负责任又使其极其有用，那么这就会提高标准。所以我认为这是一个例子，我们曾非常周到地考虑如何推出它。但我们知道，目前的标准比我们现在所处的水平更高。

Sarah: 也许一个元问题是：您如何看待竞争和供应商格局以及它们将如何发展？

本·曼: 我认为我们公司的理念与企业非常契合。例如，如果你看看像 Stripe 对比 Adyen，好像没人知道 Adyen，但至少硅谷的大多数人都知道 Stripe。所以这就像是面向商业的平台与更面向消费者和用户的平台之间的区别。我认为我们更像 Adyen，我们在世界上的心智份额要少得多，但我们却能同样或更成功。好的，是的，我认为我们的API业务极其强劲。

本·曼: 但至于我们下一步的行动和我们的定位，我认为对我们来说，保持活跃将非常重要。因为如果人们不能轻易地试用我们的模型和我们的体验，那么他们就不知道这些模型能用来做什么。我们对自己的模型而言，从本质上来说就是最佳专家。因此，我认为我们需要继续推出类似云代码这样的产品。但我们正在思考如何真正让生态系统繁荣发展？我认为MCP就是一个很好的例子，它运作得很好，它与一个不同的世界形成了对比，在那个世界里，常规做法本应是每个模型提供商只与它能够建立定制合作关系的公司进行自己的定制集成。

Sarah: 实际上，你能否暂停一下，向听众解释一下MCP是什么，如果他们还没听说过的话？因为这简直是生态系统范围内一次惊人的重大突破。

本·曼: MCP是模型上下文协议。我们的一位工程师，贾斯汀·斯帕索默斯，当时正试图将模型与某个特定的事物进行集成，这已经是第N次了。他当时想，这简直是疯了。应该有一个标准的方式，将更多信息、更多上下文传入模型。这应该是任何人都能做到的事情。或者，如果文档足够完善，那么克劳德甚至可以自己完成。理想是让克劳德能够即时地自主编写自己的集成，在你需要的时候立刻准备就绪。于是他创建了这个项目。说实话，我最初有些怀疑。我当时想，是啊，为什么不直接写代码呢？为什么需要一套规范和所有这些软件开发工具包之类的东西呢？

本·曼: 但最终，我们和许多合作公司一起成立了这个客户咨询委员会。而当我们进行MCP演示时，所有人都惊呆了。每个人都说，天哪，我们需要这个。从那时起，我就知道他是对的。于是我们投入了更多精力并将其大力推广。在我们发布后不久，所有主要公司都要求加入指导委员会，并询问我们的治理模式，希望自己也能采纳它。所以那真的非常鼓舞人心。OpenAI、谷歌、微软，所有这些公司都在MCP上大力押注。

Elad: 基本上有一个开放的行业标准，允许任何人使用这个框架，以标准化方式有效地与任何模型提供商进行集成。

本·曼: 我认为，MCP是一种民主化力量，它让任何人，无论使用何种模型提供商或何种长尾服务提供商（那甚至可能只是您独有的内部服务），都能够与一个功能完善的客户端集成，这个客户端可能看起来像您的IDE，或者像您的文档编辑器。几乎可以是任何用户界面。我认为这是一个非常强大的组合。

Sarah: 现在也支持远程了。

本·曼: 是的，是的。所以以前，你必须在本地运行这些服务，这在某种程度上限制了它只对开发者有意义。但现在我们有了托管的MCP，有时也称为远程，这样像Google文档这样的服务提供商就可以提供他们自己的MCP。然后你可以将其整合到Claude.ai或任何你想要的服务中。

Sarah: 本，感谢这次愉快的交谈。

本·曼: 是的，非常感谢。感谢所有这些精彩的问题。