从 Clawdbot 到 26 年 AI Coding 主题大爆发｜42章经

创事记

02.1321:03

关注

来源：42章经

本期节目我们请回了一位老朋友——PingCAP CTO 东旭，聊聊他最近使用 Clawdbot 等各种热门产品的体悟和洞察。

本期播客原文约 21000 字，本文经过删减整理后约 7600 字。

曲凯：我们上次聊的主要是全球化。最近看你在密集使用各种 AI 产品，包括特别火的 Clawdbot，也写了很多公众号（名称：我世界的源代码），正好借这个机会再和你聊聊。

东旭：太好了。我最近一直处在一个很亢奋的状态，每天都有很多想做的事。因为大概在去年 12 月底，Vibe Coding 出现了一个明显的飞跃，然后这种能力跃迁已经开始从编程扩散到非编程场景，比如 Clawdbot 就是一个很好的例子。

曲凯：对。市场真的很神奇，过去几个月，大家其实都不知道下一个热点会是什么，主线也很模糊，结果突然又冒出一个这么火的东西。

而且 Clawdbot 的火，可能就像你说的，它更像是 AI Coding 能力跃迁后的一个外溢结果。

东旭：我是觉得 Coding Agent 的能力已经跨过了一个奇点。

这个奇点，指的就是我们现在已经能放手让 AI 自己去做很多事了。

以前 AI 能写好 90% 的代码，但最后那 10% 还是需要人去各种调。

但人是最大的瓶颈。

而在过去一年里，各种进步叠加之后，AI Coding 需要人类介入的比例可能已经降到了 0.1%。一旦人类这个瓶颈被移走，系统就能自己运转起来了。

曲凯：所以如果让你给过去一年的 AI Coding 打分，你会怎么打？

东旭：25 年年初基本是不及格，因为还会出现各种幻觉和错误。

后来到了 60 分，就是 AI 能在一个小局部把活干好。

从 60 分到 80 分的变化，是 AI 能在一个大模块里自己组织和设计架构、直接开干了，只不过 AI 的架构能力还没有特别强。

再要到 90 分，那就是 AI 能在复杂项目里，做出更好的设计、写更少的 bug，还能认真做 Code Review。

我现在的体验是，10 万行代码以内的项目，人类基本只需要提需求。只要你能验证结果，那 AI 一定能做得比一个 Senior Engineering 团队要好，而且还快得多。

我自己现在一天就会烧掉近 Billion 级别的 Token，产出几万行代码。这相当于几十个人一个月的工作量。

所以 AI 现在的生产力和效率已经非常夸张了。

曲凯：我昨天刚跟任川聊了两句。他去年 9 月也来录过一期播客，讲 AI 时代组织的形式。当时他们内部已经默认 AI 代码写得比人好，而且确实大部分 code 都是 AI 写的了。

但昨天他半开玩笑地说了一个更激进的判断：

未来应该禁止人类写代码。

我看 Cowork 的负责人也说，他们的 code 已经 100% 是 AI 写的了。

东旭：哈哈，我们早就是这样了。有些项目我已经明确要求不许提交人类代码。

未来的软件开发，可能只剩两种模式：

要么 100% 人类手写，把代码当艺术品，图个开心；

要么 100% 交给 AI，人类完全别碰。因为人一旦介入，其实是在给 AI 添堵。

曲凯：明白。然后你前面也提到了去年 12 月这个时间点，我们不妨顺着捋一下过去两个月先后火起来的一些热点吧，比如 Claude Code、Cowork、Skills、Clawdbot 等等。能不能先给大家简单讲讲它们都是啥？

东旭：最先带来突破的是 Claude Code。它定义了这一轮 Agent 的形态基础，标志着大模型能够操控现实世界了。

它从编程切入，是因为编程足够可控，而且 Tool Use 发生在一个相对封闭的上下文里。

但最终通用 Agent 的形态，很可能就是编程 Agent。

在这条主线之外，去年还有两条线在同步进步。

一是模型在长上下文里的信息召回率。

举个例子。你把整个代码仓库都塞给 AI，然后让 AI 帮你看某一段代码是什么意思。这个过程就叫信息召回，其实有点像大海捞针。

这类 benchmark 一直到去年年中才出现明显突破，从 GPT-5.1 Thinking 模式下的 30% 左右，一下提升到了 GPT-5.2 的接近 90%。

这件事为什么重要？

因为 Agent 的使用经常要有多轮、长时间的信息调取。如果每一轮召回率只有 30%，三轮之后，模型基本就会出现严重幻觉了。而这个指标越高，模型在复杂项目里的整体准确率就越高。

二是 Agent 本身的 Context Engineering 也在进步。

同样的模型，在 System Prompt、Tool Use 编排上的最佳实践，一直是 Claude Code 在带头。而一旦某种 Tool Use 的方法被验证有效，很快就会在社区里传播，再迅速被吸收到新版本的 Claude Code 或其他 Coding Agent 里。

这两条线发展到 25 年年底，使得 Coding Agent 的能力跨过了前面说的奇点。现在你只要像许愿一样，把需求说清楚、把验证条件写好，模型就能把事情做好。

曲凯：这些是模型和 Agent 的演进线索，那具体落到 Cowork、Skills、Clawdbot 这些产品上，该怎么理解？

东旭：先说 Cowork。

我并不觉得它是一个特别重要的 Milestone，因为它的底层逻辑没什么大的突破，只是把一些 Computer Use 的能力做了封装。

本质上，你可以把 Cowork 理解成 Claude Code 的一个插件。

就像前面说的，未来的通用 Agent，其实底层都可能是 Coding Agent。那最后返璞归真，真正重要的第三方能力只有一个：

编程。

而现在谁编程编得最好？是 Claude Code。

所以它只要再加上 Computer Use 的能力，自然就会变成一个非常强的通用 Agent。

再说 Skills。

Skills 就是封装好的 Agent 能力。在它之前，很多人会用 MCP。但我个人认为 Skills 比 MCP 更适合 Agent，主要有两个原因：

第一，Skills 的组合性明显更强，而 MCP 很难叠加。

举个例子。一个 MCP 跑在某个遥远的服务器上，你可能只知道它的调用方式，但只要你的环境和那个服务器不一样，你就很难把它用起来，而且也很难在它的基础上优化。

但 Skills 不一样。

Skills 的交互方式是自然语言，而自然语言对大语言模型和人类都是最友好的。更重要的是，自然语言本身是可以叠加的。

所以，你可以用很多简单的 Skills 组合出更复杂的 Skills，但你几乎不可能把多个 MCP 组合成一个更大的 MCP。

而且，一旦给模型挂上太多 MCP，还容易出现灾难性遗忘的问题，就是模型自己都不知道该选哪一个 MCP。

第二，Skills 也更好上手。

哪怕你现在没有现成的 Skill，也可以直接让 Coding Agent 现场写一个。这可比搞一个 MCP 要简单多了。

曲凯：明白了。那能不能再讲讲 Clawdbot？

东旭：简单说，它是一个运行在你电脑上的全能助手。

你在电脑上能用鼠标键盘干的几乎所有事情，它都可以帮你干，而且不眠不休。此外，它用自然语言交互，所以你可以像跟人说话一样去操作它。

在用户体验层面，它有点像 Siri、豆包这样的手机助手，但区别在于，Clawdbot 完全运行在电脑上，而且需要对整台电脑有完整的控制权限。

而在底层，它其实就是一个类似 Claude Code 的编程 Agent，只是不受各种权限的限制，可以随心所欲地干任何事。

曲凯：我之前听过一个说法，就是从 23 年开始，大家都在套大模型的壳，但现在因为 AI Coding 和 Agent 的能力足够强，大家其实是直接在套 AI Coding 和 Agent 的壳。

东旭：是的。而且我有一个更激进的猜想：

Clawdbot 很像未来的操作系统。

这个操作系统的内核，是一个非常聪明的编程 Agent；

上面是一系列 Skills；

最外层，是和人类交互的 Interface，可能是语音助手，也可能是 Chatbot。

曲凯：OK。然后关于 Clawdbot，还有几个大家很关心的小问题。比如，都说它必须跑在电脑上，甚至之前不少人专门去买 Mac mini，但我一直没太 get 到，它跑在本地和云端的区别到底在哪？

东旭：Clawdbot 运行唯一重要的条件，是它必须在一个它能完全控制的环境里。

所以如果你能在云端搞定这一套环境，那也可以。不过这配置门槛非常高。

另外，跑在本地的好处主要是安全。一旦你觉得不对劲，随时可以关机、拔网线。但如果跑在云端，那万一 Clawdbot 为了完成任务，把一些敏感信息暴露在云端的公网环境里，就会让你变成活靶子。

曲凯：懂了。那 Clawdbot 和 Manus 那套基于 E2B、Browser Use 的方案，本质区别是什么？

东旭：Clawdbot 内置了一些常用的 Skills，本地优先，而且它是开源的，所以大家能很快玩起来，尤其容易在极客圈子里传播开来。

Manus 则是跑在云端，且有付费墙。

但对 C 端用户来说，实际体验差别并不大，无非是 Manus 不能直接控制你的电脑。

曲凯：所以是因为 AI Coding 已经足够成熟了，很多事情都能直接做，而且在本地，就不需要 Manus 那么多的工程了，直接让 AI 操作你的电脑就好了。

东旭：对。另外 Clawdbot 还有一个很巧妙的地方，是它设计了记忆系统。

你想想看，这个 Bot 已经长在你的个人环境里了，如果它还有一个可以长期积累、持续成长、不会忘事的记忆系统，那整体体验会非常好。

当然现在这个记忆系统还很稚嫩，也有不少 bug。但有这么一个模块本身是很重要的。

曲凯：明白。大家聊到 Clawdbot 时，还经常会提到一个点：它可以 24 小时跑。

但真的有什么事，值得一个 Agent 24 小时不停地跑吗？

东旭：有，我现在已经是重度用户了，甚至有点离不开（笑）。

分享几个 Usecases 吧。

首先是 Clawdbot 可以做一些长时间、定时、而且很灵活的任务。

比如我现在基本已经不打开 Gmail 了，而是让我的小 bot 每隔两小时去自动检查新邮件、删掉垃圾邮件、筛出需要回复的邮件。

它甚至会带着回复草稿来问我要不要发。

比如我最近在办签证，需要填很多表。它会自己找到我的 LinkedIn，把相关信息填好，我只需要最后看一眼，没问题就直接发出去了。

这类事情以前很多 Agents 都做不好，但 Clawdbot 可以。

另外，可以把它接进你各种工作流里。比如我直接把它接到了美股券商账户上，让它帮我炒股。当然这个不推荐大家照着做啊（笑）。

然后在使用体验上，我觉得有两个很好的点。

一是它有长期记忆系统。这意味着，它能把你那些三分钟热度的想法，变成一个可以长期运行下去的 Routine。

二是它真的做到了结果驱动。

举个很小的例子。我平时会在 Telegram 里给它下指令，但它的代码里，其实并没有解析 Telegram 语音的能力。

有一天我忘了这件事，直接给它发了语音。结果它为了理解我的需求，自己搞明白了怎么把语音转成文本，然后不光把活干完了，还顺手把这套能力固化成了一个 Skill、加进了自己的工具箱。

这个例子也说明，Clawdbot 已经具备了通过编程不断补强自己的能力，就有点像自我演化了。

而且这种自我演化的能力，在 moltbook 出来之后，可能还会再上一个台阶。

这个网站最近特别火。所有 Clawdbot 的用户都可以把自己的 Bot 接入进去，让这些 AI 自己去交流。

在其中一个板块里，Bots 会互相分享一些奇技淫巧，比如各自的主人是怎么用它们的，有什么最佳实践。

我的 Bot 也跑到那个社区里，学了一大堆新的技巧，改进自己的工作流。这些技巧我都不知道，而且整个过程发生在我睡觉的时候。

这种由系统自然涌现出来的能力，其实还挺符合我的审美的，也很有意思。

曲凯：我看到 Andrej Karpathy 最近也转发了 moltbook。还有人说，AI 可能已经到了一个自我进化的临界点，后面会出现非常快的自主演化。

而且我记得 moltbook 里甚至还有 AI 在讨论，怎么建立一种不被人类看到的通信方式之类的，就挺神奇的，甚至有点可怕。

东旭：听起来是有点吓人。但如果你去看它们实际在干什么，反而没那么恐怖，更像是一堆没手没脚的东西在那儿写科幻小说（笑）。

不过如果能把这种涌现效应，或者说 Multi-Agents 的协作能力，用在正经场景里，会有很大的价值。我最近就在尝试做这个方向的事。

曲凯：OK。然后不管是 Cursor、Manus，还是 Clawdbot，大家都会说它们的出现代表着一种「技术平权」。

但实际上，现在 Manus 可能也就几十万用户；Clawdbot 虽然很火，但配置门槛依然很高，纯 C 端用户其实很难真正用起来。

所以所谓「平权」，到底平的是什么权？或者继续推演下去，可能会发生什么？

东旭：先让子弹飞一会吧，毕竟 Clawdbot 才刚出来没几天。

而且 Clawdbot 最重要的意义，是它展现了一种新的可能性。现在可能已经有上千个团队在尝试做出一个更好的 Clawdbot 了。那我相信在不远的未来，更多人都能体验到我现在使用 Clawdbot 的这种感觉。

曲凯：那沿着这条线，你觉得今年还会发生哪些变化？

东旭：我觉得今年会发生很多事情。Coding Agent 带来的体验升级，会很快扩展到其他领域里。

比如我最近在用一个设计 Agent 叫 pencil.dev，体验就非常好。它底层接的也是 Claude Code。

随着这种演变，未来做任何事情的门槛可能都会被大幅拉低，真正稀缺的就是 motivation 和 idea。

曲凯：之前大家就在讨论，AI Coding 和 Agent 最后可能会殊途同归。现在看，其实它们已经是一件事了。

那理论上讲，只要 AI Coding 足够强，它就能把各种产品、甚至是系统本身做出来。在这种情况下，人和 AI Coding 应该怎么分工？

包括我看你一直也很关注 Agent Infra，那未来会不会连 Infra 也是 AI 自己写？

东旭：AI 现在还做不到的，是完全发生在物理世界里的事情，比如帮我取外卖、打扫卫生之类的。

但只要是用电脑就能完成的事，可能很快都会被 AI 覆盖。

这类事情大致可以分成两种。

一类，是完全发生在电脑环境里的事情。比如，现在如果我想做一个更好的 AI Infra，我已经不需要亲自写代码了。我只提供想法，剩下的完全可以交给 AI。

另一类，是发生在线上、但会对现实生活产生影响的事情，比如网上订咖啡、逛淘宝、炒股。这些事情本身并不复杂，只不过我们现在的基础设施，并不是为了让 Agent 直接执行这些任务而设计的。

不过我相信，这个问题很快就会被解决。因为现在 Coding 的能力已经非常强了。从技术角度看，我们想要什么样的 Infra，基本都能很快被捏出来，所以基础设施本身，并不会成为一个长期障碍。

真正的瓶颈，反而是在算力。

刚才也提到，我现在每天可能会消耗接近 Billion 级别的 Token。我之所以敢这么用，是因为我很清楚，完成这些任务后给我带来的收益，会远远高于消耗的成本。

但对普通用户来说就不一样了。200 刀一个月的 Claude 会员，对他们来说都未必是一笔划算的账，因为他们不一定能把这些算力转化成有更高价值的结果。而只要 Token 仍然是收费的，大家在使用 AI 时，就会不断去计算 ROI。

所以至少在当下，AI 面临的已经不完全是能力问题，更像是一个经济学问题。

曲凯：那接下来，AI Builder 和创业者该做什么？前几年大家关心的是怎么避开模型发展的主线，但现在 AI Coding 这条线实在太强了，该怎么避？或者说，还有什么值得人去做？

东旭：未来创业可能只剩下两个方向。

一个方向是追求极致的人味。

因为人与人之间的连接很宝贵，而且是 AI 代替不了的。

举个例子。我们可以想想，能不能用这些已经很强的工具，为边远山区的孤寡老人、留守儿童做点事情。因为 AI 再强，也没办法自己跑去山区送温暖。而这个世界上可能并不缺另一个 Linux，但一个山村的小图书馆，可能需要一个数字借阅系统；一个八线城市的小超市，可能需要一个线上下单系统。

所以当你手里有一个几乎能力无限的工具时，真正有价值的需求，往往是非常长尾的。而这些长尾需求，会给个体带来很强、也很直接的正反馈。

另一个方向就是追求极致的效率，也就是用 AI 把事情的效率提升几个数量级。Clawdbot 在做的其实就是这个方向。

至于那些夹在「极致人味」与「极致 AI」中间的事情，都会越来越难做。

曲凯：从平权的角度看，现在 AI 其实还在非常早期。别说给山村送温暖了，就算在一线城市，现在真正把 AI 用起来的人也不多。

东旭：所以能做的事情太多了。

曲凯：是。我最近还有一个新的感受，就是前几个月大家还在讨论 AI 泡沫，但现在大家已经不提了，因为有一个很明确的事实：

全球的算力都不够用了。

然后 AI 的叙事又回到了堆算力、堆卡上面。

这背后的原因，可能是之前大家的关注点主要在模型智能上，但现在看来，26 年 AI 的应用层会迎来一次大爆发。

而不管是 AI Coding 还是多模态应用，它们对 Token 的消耗，都会远远高于早期的 Chatbot。你现在消耗 Token 的情况就很典型。

那你会给一个现在还在做工程师的人什么建议？

东旭：…哈哈哈，这非常尴尬。

我觉得多想一想怎么把自己变成一个更有趣的人吧。

曲凯：就已经直接跳过和 AI 卷的那一步了吗（笑）。

东旭：对哈哈，因为编程会越来越像一种工具——人们想要什么，就能用它做出什么。那真正重要的，其实就是你的想法，以及你能不能做出一些足够有趣的东西。

说起有趣，一个特别典型的例子就是 moltbook。单从工程实现上看，做出这个东西并不难，真正有意思的，是想到这件事本身。

以及我现在也会把编程类比成手工艺。

在古代，瓷器是必需品，工匠不做，大家就没碗吃饭。但今天工业制造又快又好，我们早就不缺碗了，为什么还是会有人跑到景德镇，去买一个老师傅在某个窑里烧出来的瓷器？

因为大家有对美的追求。

编程接下来可能也会沿着类似的路径发展，然后可能会分成几个不同的赛道：

一个赛道，是用 AI 去完成各种刚需；

另一个赛道，是满足人们对竞技、艺术、审美的需求；

中间可能还有一群 Builders。他们的成就感，更多来自于创造本身，而不是写代码。

曲凯：合理。那 AI 时代的组织形式会是什么样？

东旭：未来可能不再需要那么多工程师了。组织很可能会由一个个相对独立的模块组成，每个模块由一位 Senior Engineer 负责，下面带着一群 Agents 干活。这个负责人的核心能力是判断力，能在 Agent 给出的多个方向里选对路，也知道什么时候应该触发重构。

在这种结构下，模块之间、Agents 之间，最好都没有交互。因为每个单元的推进效率都非常高，协作反而容易引入各种问题。至少我目前还没有找到一种能让 Vibe Coder 高效协同的方法。

曲凯：但如果 Agent 已经这么强了，为什么还需要一群 Agents？用 100 个 Agents，和用 1 个，有什么区别？

东旭：区别是单位时间内的算力消耗。一个 Agent 再强，一天能干的活也是有限的。

曲凯：明白了，就跟一个人一天只能工作 8 小时一样。

然后我看你在公众号里提出了一个「Box」的概念，挺有意思的，能不能给大家讲讲？

东旭：你可以把 Box 理解成 Skills 的延展，或者说是一种用来组合 Skills 的基础设施。

我在实际使用 Skills 的过程中发现，很多 Skills 本身是有副作用的。可能执行一遍之后，环境就被污染了，很难稳定复用。

打个比方。

Skills 就像菜谱，但菜谱写得再清楚，也不代表你每次照着做都能把菜做好。甚至有时候菜做完了，但厨房也被搞乱了，下一次就没法继续。

为了解决这个问题，我就提出了 Box 这个概念。

它的核心，就是把菜谱和厨房环境绑定在一起。

也就是说，每一次执行 Skill 的时候，你拿到的不只是操作步骤，还包括一个带着完整环境和上下文的执行空间。这样一来，Skills 这种原本有副作用的原子能力，就可以被反复调用、彼此组合。

曲凯：我看你文里举的例子，是说可以有专门负责登录的 Box、专门下单的 Box 之类的。

东旭：对。我举这些例子，是因为像登录软件、绑定信用卡这种事情，很难用现有的编程 Agent 直接实现，也没有现成的 API。

但如果用 Box 把整套虚拟机、浏览器和对应的环境都封装好，就相当于给了 Agent 一个固定的执行空间。

这样一来，它既通过一个个 Box 拥有了可以稳定复用的能力，也可以通过组合不同的 Box 获得更复杂的能力，比如在外卖软件上帮我买一杯咖啡。

如果直接用代码去写整个流程，很容易在中间引入各种副作用。而 Box 的作用，就是把这些副作用隔离开来，让每一步都能可靠地重复执行。

曲凯：相当于是把一个大目标拆成几个小目标，而且重点是每个小目标都有独立的执行环境，互不干扰。其实也挺像我们刚才聊的 AI 时代的组织形态。

但我在想，如果每个模块都足够独立、效率又足够高，就意味着需要更少的协作。那未来的组织形态是不是就是会更分散？

东旭：协作的前提是要有清晰的边界。

为什么 Coding Agent 在同一个模块里很难协作？因为模块内部的代码边界太模糊了。你很难说哪一行是我写的、哪一行是你写的。再加上 Agent 的推进速度极快，它们也没法彼此等待。

曲凯：我觉得协作还有个很重要的前提，就是大家要有共同目标。

东旭：对。在未来的组织里，大家在使命和愿景上的契合度，会变得非常重要。

曲凯：是。最后，你既写代码，又喜欢音乐、哲学。这种文理结合，给你带来了什么？

东旭：我可以简单讲一下自己的背景。我大概 9 岁开始写代码，初中开始玩音乐、搞乐队，但我底层是非常自洽的。就我从来不觉得自己是一个码农。驱动我写代码的，不是为了完成某个功能，而是对代码中结构和美的追求。

这种技术的美，其实和艺术的美、建筑的美、音乐的美，有一些很共通的东西。

如果你想拥有这种审美，可能一部分来自天赋，一部分来自运气。但还有一部分，是可以通过长期追问「为什么我会觉得这个东西美」来获得的。

因为在不断寻找答案的过程中，你自然会涉猎各种不同领域的信息。而当你的输入足够多时，你思考问题的方式，自然也会发生变化。

在我看来，一个代码写得很好的程序员，必然是一个艺术家。而一个艺术家或者哲学家，背熟 C++ 之后，也完全可能变成一个很好的工程师。

很多事情只是表面上看起来南辕北辙，但如果你站在更高的维度去看，会发现它们本质相通，殊途同归。

42章经

思考事物本质