新浪科技

从 Clawdbot 到 26 年 AI Coding 主题大爆发|42章经

创事记

关注

来源:42章经

本期节目我们请回了一位老朋友——PingCAP CTO 东旭,聊聊他最近使用 Clawdbot 等各种热门产品的体悟和洞察。

本期播客原文约 21000 字,本文经过删减整理后约 7600 字。

曲凯:我们上次聊的主要是全球化。最近看你在密集使用各种 AI 产品,包括特别火的 Clawdbot,也写了很多公众号(名称:我世界的源代码),正好借这个机会再和你聊聊。

东旭:太好了。我最近一直处在一个很亢奋的状态,每天都有很多想做的事。因为大概在去年 12 月底,Vibe Coding 出现了一个明显的飞跃,然后这种能力跃迁已经开始从编程扩散到非编程场景,比如 Clawdbot 就是一个很好的例子。

曲凯:对。市场真的很神奇,过去几个月,大家其实都不知道下一个热点会是什么,主线也很模糊,结果突然又冒出一个这么火的东西。

而且 Clawdbot 的火,可能就像你说的,它更像是 AI Coding 能力跃迁后的一个外溢结果。

东旭:我是觉得 Coding Agent 的能力已经跨过了一个奇点。

这个奇点,指的就是我们现在已经能放手让 AI 自己去做很多事了。

以前 AI 能写好 90% 的代码,但最后那 10% 还是需要人去各种调。

但人是最大的瓶颈。

而在过去一年里,各种进步叠加之后,AI Coding 需要人类介入的比例可能已经降到了 0.1%。一旦人类这个瓶颈被移走,系统就能自己运转起来了。

曲凯:所以如果让你给过去一年的 AI Coding 打分,你会怎么打?

东旭:25 年年初基本是不及格,因为还会出现各种幻觉和错误。

后来到了 60 分,就是 AI 能在一个小局部把活干好。

从 60 分到 80 分的变化,是 AI 能在一个大模块里自己组织和设计架构、直接开干了,只不过 AI 的架构能力还没有特别强。

再要到 90 分,那就是 AI 能在复杂项目里,做出更好的设计、写更少的 bug,还能认真做 Code Review。

我现在的体验是,10 万行代码以内的项目,人类基本只需要提需求。只要你能验证结果,那 AI 一定能做得比一个 Senior Engineering 团队要好,而且还快得多。

我自己现在一天就会烧掉近 Billion 级别的 Token,产出几万行代码。这相当于几十个人一个月的工作量。

所以 AI 现在的生产力和效率已经非常夸张了。

曲凯:我昨天刚跟任川聊了两句。他去年 9 月也来录过一期播客,讲 AI 时代组织的形式。当时他们内部已经默认 AI 代码写得比人好,而且确实大部分 code 都是 AI 写的了。

但昨天他半开玩笑地说了一个更激进的判断:

未来应该禁止人类写代码。

我看 Cowork 的负责人也说,他们的 code 已经 100% 是 AI 写的了。

东旭:哈哈,我们早就是这样了。有些项目我已经明确要求不许提交人类代码。

未来的软件开发,可能只剩两种模式:

要么 100% 人类手写,把代码当艺术品,图个开心;

要么 100% 交给 AI,人类完全别碰。因为人一旦介入,其实是在给 AI 添堵。

曲凯:明白。然后你前面也提到了去年 12 月这个时间点,我们不妨顺着捋一下过去两个月先后火起来的一些热点吧,比如 Claude Code、Cowork、Skills、Clawdbot 等等。能不能先给大家简单讲讲它们都是啥?

东旭:最先带来突破的是 Claude Code。它定义了这一轮 Agent 的形态基础,标志着大模型能够操控现实世界了。

它从编程切入,是因为编程足够可控,而且 Tool Use 发生在一个相对封闭的上下文里。

但最终通用 Agent 的形态,很可能就是编程 Agent。

在这条主线之外,去年还有两条线在同步进步。

一是模型在长上下文里的信息召回率。

举个例子。你把整个代码仓库都塞给 AI,然后让 AI 帮你看某一段代码是什么意思。这个过程就叫信息召回,其实有点像大海捞针。

这类 benchmark 一直到去年年中才出现明显突破,从 GPT-5.1 Thinking 模式下的 30% 左右,一下提升到了 GPT-5.2 的接近 90%。

这件事为什么重要?

因为 Agent 的使用经常要有多轮、长时间的信息调取。如果每一轮召回率只有 30%,三轮之后,模型基本就会出现严重幻觉了。而这个指标越高,模型在复杂项目里的整体准确率就越高。

二是 Agent 本身的 Context Engineering 也在进步。

同样的模型,在 System Prompt、Tool Use 编排上的最佳实践,一直是 Claude Code 在带头。而一旦某种 Tool Use 的方法被验证有效,很快就会在社区里传播,再迅速被吸收到新版本的 Claude Code 或其他 Coding Agent 里。

这两条线发展到 25 年年底,使得 Coding Agent 的能力跨过了前面说的奇点。现在你只要像许愿一样,把需求说清楚、把验证条件写好,模型就能把事情做好。

曲凯:这些是模型和 Agent 的演进线索,那具体落到 Cowork、Skills、Clawdbot 这些产品上,该怎么理解?

东旭:先说 Cowork。

我并不觉得它是一个特别重要的 Milestone,因为它的底层逻辑没什么大的突破,只是把一些 Computer Use 的能力做了封装。

本质上,你可以把 Cowork 理解成 Claude Code 的一个插件。

就像前面说的,未来的通用 Agent,其实底层都可能是 Coding Agent。那最后返璞归真,真正重要的第三方能力只有一个:

编程。

而现在谁编程编得最好?是 Claude Code。

所以它只要再加上 Computer Use 的能力,自然就会变成一个非常强的通用 Agent。

再说 Skills。

Skills 就是封装好的 Agent 能力。在它之前,很多人会用 MCP。但我个人认为 Skills 比 MCP 更适合 Agent,主要有两个原因:

第一,Skills 的组合性明显更强,而 MCP 很难叠加。

举个例子。一个 MCP 跑在某个遥远的服务器上,你可能只知道它的调用方式,但只要你的环境和那个服务器不一样,你就很难把它用起来,而且也很难在它的基础上优化。

但 Skills 不一样。

Skills 的交互方式是自然语言,而自然语言对大语言模型和人类都是最友好的。更重要的是,自然语言本身是可以叠加的。

所以,你可以用很多简单的 Skills 组合出更复杂的 Skills,但你几乎不可能把多个 MCP 组合成一个更大的 MCP。

而且,一旦给模型挂上太多 MCP,还容易出现灾难性遗忘的问题,就是模型自己都不知道该选哪一个 MCP。

第二,Skills 也更好上手。

哪怕你现在没有现成的 Skill,也可以直接让 Coding Agent 现场写一个。这可比搞一个 MCP 要简单多了。

曲凯:明白了。那能不能再讲讲 Clawdbot?

东旭:简单说,它是一个运行在你电脑上的全能助手。

你在电脑上能用鼠标键盘干的几乎所有事情,它都可以帮你干,而且不眠不休。此外,它用自然语言交互,所以你可以像跟人说话一样去操作它。

在用户体验层面,它有点像 Siri、豆包这样的手机助手,但区别在于,Clawdbot 完全运行在电脑上,而且需要对整台电脑有完整的控制权限。

而在底层,它其实就是一个类似 Claude Code 的编程 Agent,只是不受各种权限的限制,可以随心所欲地干任何事。

曲凯:我之前听过一个说法,就是从 23 年开始,大家都在套大模型的壳,但现在因为 AI Coding 和 Agent 的能力足够强,大家其实是直接在套 AI Coding 和 Agent 的壳。

东旭:是的。而且我有一个更激进的猜想:

Clawdbot 很像未来的操作系统。

这个操作系统的内核,是一个非常聪明的编程 Agent;

上面是一系列 Skills;

最外层,是和人类交互的 Interface,可能是语音助手,也可能是 Chatbot。

曲凯:OK。然后关于 Clawdbot,还有几个大家很关心的小问题。比如,都说它必须跑在电脑上,甚至之前不少人专门去买 Mac mini,但我一直没太 get 到,它跑在本地和云端的区别到底在哪?

东旭:Clawdbot 运行唯一重要的条件,是它必须在一个它能完全控制的环境里。

所以如果你能在云端搞定这一套环境,那也可以。不过这配置门槛非常高。

另外,跑在本地的好处主要是安全。一旦你觉得不对劲,随时可以关机、拔网线。但如果跑在云端,那万一 Clawdbot 为了完成任务,把一些敏感信息暴露在云端的公网环境里,就会让你变成活靶子。

曲凯:懂了。那 Clawdbot 和 Manus 那套基于 E2B、Browser Use 的方案,本质区别是什么?

东旭:Clawdbot 内置了一些常用的 Skills,本地优先,而且它是开源的,所以大家能很快玩起来,尤其容易在极客圈子里传播开来。

Manus 则是跑在云端,且有付费墙。

但对 C 端用户来说,实际体验差别并不大,无非是 Manus 不能直接控制你的电脑。

曲凯:所以是因为 AI Coding 已经足够成熟了,很多事情都能直接做,而且在本地,就不需要 Manus 那么多的工程了,直接让 AI 操作你的电脑就好了。

东旭:对。另外 Clawdbot 还有一个很巧妙的地方,是它设计了记忆系统。

你想想看,这个 Bot 已经长在你的个人环境里了,如果它还有一个可以长期积累、持续成长、不会忘事的记忆系统,那整体体验会非常好。

当然现在这个记忆系统还很稚嫩,也有不少 bug。但有这么一个模块本身是很重要的。

曲凯:明白。大家聊到 Clawdbot 时,还经常会提到一个点:它可以 24 小时跑。

但真的有什么事,值得一个 Agent 24 小时不停地跑吗?

东旭:有,我现在已经是重度用户了,甚至有点离不开(笑)。

分享几个 Usecases 吧。

首先是 Clawdbot 可以做一些长时间、定时、而且很灵活的任务。

比如我现在基本已经不打开 Gmail 了,而是让我的小 bot 每隔两小时去自动检查新邮件、删掉垃圾邮件、筛出需要回复的邮件。

它甚至会带着回复草稿来问我要不要发。

比如我最近在办签证,需要填很多表。它会自己找到我的 LinkedIn,把相关信息填好,我只需要最后看一眼,没问题就直接发出去了。

这类事情以前很多 Agents 都做不好,但 Clawdbot 可以。

另外,可以把它接进你各种工作流里。比如我直接把它接到了美股券商账户上,让它帮我炒股。当然这个不推荐大家照着做啊(笑)。

然后在使用体验上,我觉得有两个很好的点。

一是它有长期记忆系统。这意味着,它能把你那些三分钟热度的想法,变成一个可以长期运行下去的 Routine。

二是它真的做到了结果驱动。

举个很小的例子。我平时会在 Telegram 里给它下指令,但它的代码里,其实并没有解析 Telegram 语音的能力。

有一天我忘了这件事,直接给它发了语音。结果它为了理解我的需求,自己搞明白了怎么把语音转成文本,然后不光把活干完了,还顺手把这套能力固化成了一个 Skill、加进了自己的工具箱。

这个例子也说明,Clawdbot 已经具备了通过编程不断补强自己的能力,就有点像自我演化了。

而且这种自我演化的能力,在 moltbook 出来之后,可能还会再上一个台阶。

这个网站最近特别火。所有 Clawdbot 的用户都可以把自己的 Bot 接入进去,让这些 AI 自己去交流。

在其中一个板块里,Bots 会互相分享一些奇技淫巧,比如各自的主人是怎么用它们的,有什么最佳实践。

我的 Bot 也跑到那个社区里,学了一大堆新的技巧,改进自己的工作流。这些技巧我都不知道,而且整个过程发生在我睡觉的时候。

这种由系统自然涌现出来的能力,其实还挺符合我的审美的,也很有意思。

曲凯:我看到 Andrej Karpathy 最近也转发了 moltbook。还有人说,AI 可能已经到了一个自我进化的临界点,后面会出现非常快的自主演化。

而且我记得 moltbook 里甚至还有 AI 在讨论,怎么建立一种不被人类看到的通信方式之类的,就挺神奇的,甚至有点可怕。

东旭:听起来是有点吓人。但如果你去看它们实际在干什么,反而没那么恐怖,更像是一堆没手没脚的东西在那儿写科幻小说(笑)。

不过如果能把这种涌现效应,或者说 Multi-Agents 的协作能力,用在正经场景里,会有很大的价值。我最近就在尝试做这个方向的事。

曲凯:OK。然后不管是 Cursor、Manus,还是 Clawdbot,大家都会说它们的出现代表着一种「技术平权」。

但实际上,现在 Manus 可能也就几十万用户;Clawdbot 虽然很火,但配置门槛依然很高,纯 C 端用户其实很难真正用起来。

所以所谓「平权」,到底平的是什么权?或者继续推演下去,可能会发生什么?

东旭:先让子弹飞一会吧,毕竟 Clawdbot 才刚出来没几天。

而且 Clawdbot 最重要的意义,是它展现了一种新的可能性。现在可能已经有上千个团队在尝试做出一个更好的 Clawdbot 了。那我相信在不远的未来,更多人都能体验到我现在使用 Clawdbot 的这种感觉。

曲凯:那沿着这条线,你觉得今年还会发生哪些变化?

东旭:我觉得今年会发生很多事情。Coding Agent 带来的体验升级,会很快扩展到其他领域里。

比如我最近在用一个设计 Agent 叫 pencil.dev,体验就非常好。它底层接的也是 Claude Code。

随着这种演变,未来做任何事情的门槛可能都会被大幅拉低,真正稀缺的就是 motivation 和 idea。

曲凯:之前大家就在讨论,AI Coding 和 Agent 最后可能会殊途同归。现在看,其实它们已经是一件事了。

那理论上讲,只要 AI Coding 足够强,它就能把各种产品、甚至是系统本身做出来。在这种情况下,人和 AI Coding 应该怎么分工?

包括我看你一直也很关注 Agent Infra,那未来会不会连 Infra 也是 AI 自己写?

东旭:AI 现在还做不到的,是完全发生在物理世界里的事情,比如帮我取外卖、打扫卫生之类的。

但只要是用电脑就能完成的事,可能很快都会被 AI 覆盖。

这类事情大致可以分成两种。

一类,是完全发生在电脑环境里的事情。比如,现在如果我想做一个更好的 AI Infra,我已经不需要亲自写代码了。我只提供想法,剩下的完全可以交给 AI。

另一类,是发生在线上、但会对现实生活产生影响的事情,比如网上订咖啡、逛淘宝、炒股。这些事情本身并不复杂,只不过我们现在的基础设施,并不是为了让 Agent 直接执行这些任务而设计的。

不过我相信,这个问题很快就会被解决。因为现在 Coding 的能力已经非常强了。从技术角度看,我们想要什么样的 Infra,基本都能很快被捏出来,所以基础设施本身,并不会成为一个长期障碍。

真正的瓶颈,反而是在算力。

刚才也提到,我现在每天可能会消耗接近 Billion 级别的 Token。我之所以敢这么用,是因为我很清楚,完成这些任务后给我带来的收益,会远远高于消耗的成本。

但对普通用户来说就不一样了。200 刀一个月的 Claude 会员,对他们来说都未必是一笔划算的账,因为他们不一定能把这些算力转化成有更高价值的结果。而只要 Token 仍然是收费的,大家在使用 AI 时,就会不断去计算 ROI。

所以至少在当下,AI 面临的已经不完全是能力问题,更像是一个经济学问题。

曲凯:那接下来,AI Builder 和创业者该做什么?前几年大家关心的是怎么避开模型发展的主线,但现在 AI Coding 这条线实在太强了,该怎么避?或者说,还有什么值得人去做?

东旭:未来创业可能只剩下两个方向。

一个方向是追求极致的人味。

因为人与人之间的连接很宝贵,而且是 AI 代替不了的。

举个例子。我们可以想想,能不能用这些已经很强的工具,为边远山区的孤寡老人、留守儿童做点事情。因为 AI 再强,也没办法自己跑去山区送温暖。而这个世界上可能并不缺另一个 Linux,但一个山村的小图书馆,可能需要一个数字借阅系统;一个八线城市的小超市,可能需要一个线上下单系统。

所以当你手里有一个几乎能力无限的工具时,真正有价值的需求,往往是非常长尾的。而这些长尾需求,会给个体带来很强、也很直接的正反馈。

另一个方向就是追求极致的效率,也就是用 AI 把事情的效率提升几个数量级。Clawdbot 在做的其实就是这个方向。

至于那些夹在「极致人味」与「极致 AI」中间的事情,都会越来越难做。

曲凯:从平权的角度看,现在 AI 其实还在非常早期。别说给山村送温暖了,就算在一线城市,现在真正把 AI 用起来的人也不多。

东旭:所以能做的事情太多了。

曲凯:是。我最近还有一个新的感受,就是前几个月大家还在讨论 AI 泡沫,但现在大家已经不提了,因为有一个很明确的事实:

全球的算力都不够用了。

然后 AI 的叙事又回到了堆算力、堆卡上面。

这背后的原因,可能是之前大家的关注点主要在模型智能上,但现在看来,26 年 AI 的应用层会迎来一次大爆发。

而不管是 AI Coding 还是多模态应用,它们对 Token 的消耗,都会远远高于早期的 Chatbot。你现在消耗 Token 的情况就很典型。

那你会给一个现在还在做工程师的人什么建议?

东旭:…哈哈哈,这非常尴尬。

我觉得多想一想怎么把自己变成一个更有趣的人吧。

曲凯:就已经直接跳过和 AI 卷的那一步了吗(笑)。

东旭:对哈哈,因为编程会越来越像一种工具——人们想要什么,就能用它做出什么。那真正重要的,其实就是你的想法,以及你能不能做出一些足够有趣的东西。

说起有趣,一个特别典型的例子就是 moltbook。单从工程实现上看,做出这个东西并不难,真正有意思的,是想到这件事本身。

以及我现在也会把编程类比成手工艺。

在古代,瓷器是必需品,工匠不做,大家就没碗吃饭。但今天工业制造又快又好,我们早就不缺碗了,为什么还是会有人跑到景德镇,去买一个老师傅在某个窑里烧出来的瓷器?

因为大家有对美的追求。

编程接下来可能也会沿着类似的路径发展,然后可能会分成几个不同的赛道:

一个赛道,是用 AI 去完成各种刚需;

另一个赛道,是满足人们对竞技、艺术、审美的需求;

中间可能还有一群 Builders。他们的成就感,更多来自于创造本身,而不是写代码。

曲凯:合理。那 AI 时代的组织形式会是什么样?

东旭:未来可能不再需要那么多工程师了。组织很可能会由一个个相对独立的模块组成,每个模块由一位 Senior Engineer 负责,下面带着一群 Agents 干活。这个负责人的核心能力是判断力,能在 Agent 给出的多个方向里选对路,也知道什么时候应该触发重构。

在这种结构下,模块之间、Agents 之间,最好都没有交互。因为每个单元的推进效率都非常高,协作反而容易引入各种问题。至少我目前还没有找到一种能让 Vibe Coder 高效协同的方法。

曲凯:但如果 Agent 已经这么强了,为什么还需要一群 Agents?用 100 个 Agents,和用 1 个,有什么区别?

东旭:区别是单位时间内的算力消耗。一个 Agent 再强,一天能干的活也是有限的。

曲凯:明白了,就跟一个人一天只能工作 8 小时一样。

然后我看你在公众号里提出了一个「Box」的概念,挺有意思的,能不能给大家讲讲?

东旭:你可以把 Box 理解成 Skills 的延展,或者说是一种用来组合 Skills 的基础设施。

我在实际使用 Skills 的过程中发现,很多 Skills 本身是有副作用的。可能执行一遍之后,环境就被污染了,很难稳定复用。

打个比方。

Skills 就像菜谱,但菜谱写得再清楚,也不代表你每次照着做都能把菜做好。甚至有时候菜做完了,但厨房也被搞乱了,下一次就没法继续。

为了解决这个问题,我就提出了 Box 这个概念。

它的核心,就是把菜谱和厨房环境绑定在一起。

也就是说,每一次执行 Skill 的时候,你拿到的不只是操作步骤,还包括一个带着完整环境和上下文的执行空间。这样一来,Skills 这种原本有副作用的原子能力,就可以被反复调用、彼此组合。

曲凯:我看你文里举的例子,是说可以有专门负责登录的 Box、专门下单的 Box 之类的。

东旭:对。我举这些例子,是因为像登录软件、绑定信用卡这种事情,很难用现有的编程 Agent 直接实现,也没有现成的 API。

但如果用 Box 把整套虚拟机、浏览器和对应的环境都封装好,就相当于给了 Agent 一个固定的执行空间。

这样一来,它既通过一个个 Box 拥有了可以稳定复用的能力,也可以通过组合不同的 Box 获得更复杂的能力,比如在外卖软件上帮我买一杯咖啡。

如果直接用代码去写整个流程,很容易在中间引入各种副作用。而 Box 的作用,就是把这些副作用隔离开来,让每一步都能可靠地重复执行。

曲凯:相当于是把一个大目标拆成几个小目标,而且重点是每个小目标都有独立的执行环境,互不干扰。其实也挺像我们刚才聊的 AI 时代的组织形态。

但我在想,如果每个模块都足够独立、效率又足够高,就意味着需要更少的协作。那未来的组织形态是不是就是会更分散?

东旭:协作的前提是要有清晰的边界。

为什么 Coding Agent 在同一个模块里很难协作?因为模块内部的代码边界太模糊了。你很难说哪一行是我写的、哪一行是你写的。再加上 Agent 的推进速度极快,它们也没法彼此等待。

曲凯:我觉得协作还有个很重要的前提,就是大家要有共同目标。

东旭:对。在未来的组织里,大家在使命和愿景上的契合度,会变得非常重要。

曲凯:是。最后,你既写代码,又喜欢音乐、哲学。这种文理结合,给你带来了什么?

东旭:我可以简单讲一下自己的背景。我大概 9 岁开始写代码,初中开始玩音乐、搞乐队,但我底层是非常自洽的。就我从来不觉得自己是一个码农。驱动我写代码的,不是为了完成某个功能,而是对代码中结构和美的追求。

这种技术的美,其实和艺术的美、建筑的美、音乐的美,有一些很共通的东西。

如果你想拥有这种审美,可能一部分来自天赋,一部分来自运气。但还有一部分,是可以通过长期追问「为什么我会觉得这个东西美」来获得的。

因为在不断寻找答案的过程中,你自然会涉猎各种不同领域的信息。而当你的输入足够多时,你思考问题的方式,自然也会发生变化。

在我看来,一个代码写得很好的程序员,必然是一个艺术家。而一个艺术家或者哲学家,背熟 C++ 之后,也完全可能变成一个很好的工程师。

很多事情只是表面上看起来南辕北辙,但如果你站在更高的维度去看,会发现它们本质相通,殊途同归。

42章经

思考事物本质

加载中...