OpenClaw 之后，我只想未来 3-6 个月的事情｜42章经

创事记

03.2221:02

关注

来源：42章经

本期播客原文约 18000 字，本文经过删减整理后约 7800 字。

曲凯：很开心又请到文锋。我们上次录节目大概是一年前，当时 Manus 刚发布不久，我们聊了很多 Agent 相关的话题。

最近 OpenClaw 又带起了一波 Agent 热，你觉得这一波和去年的区别是什么？

文锋：我没觉得有本质区别。

Manus 跟 OpenClaw 都证明了一类新形态的产品。

Manus 那波的核心来源是 o1 模型带来的推理能力与思维链能力，而 Manus 本身是模型 API 时代套壳的极致表现。

这次 OpenClaw 之所以这么火，本质是因为它是第一个真正把最新模型 Coding 能力压到极致的产品形态。而且它让大家看到了，有主动性、能够自我迭代和进化的 Proactive Agent 到底长什么样子。

曲凯：去年那期播客里，你说过一句让我印象特别深的话：AI Coding 是大模型的灵巧手。

文锋：对，这件事已经被证明了。

不过相比去年「灵巧手」的结论，今年其实可以再往前一步：

接下来所有 Agent，本质上都是 Coding Agent。

拿 OpenClaw 举例。虽然它有很多组件和模块，但核心其实是一个叫 ClawPad 的 Coding Agent。OpenClaw 本质上就是当下围绕 Coding Agent 套壳的最佳实践，只是额外解决了 Memory 和集成等问题。

再比如，去年大家还认为，不同场景需要不同的环境和产品策略，因为垂直 know-how 很难 scale、也很难复制。但其实今天的 Coding Agent 加上 Skill，基本可以覆盖大多数场景了。

所以今年的一大机会，就是看谁能把 Coding Agent 的「套壳」做得足够好。

曲凯：是。那如果我们拿今天跟一年前去对比，一年前是 Manus 先起来，Genspark 最快跟上，然后陆续有些小产品也出来，中间还衍生出来一些分歧跟选择：有人做通用 Agent，有人做 Agent 平台，也有做各种垂直 Agent 的。回头来看，你觉得这些路径中有什么对错标准吗？

文锋：虽然我很不愿意承认，但现在来看，垂直 Agent 这条路可能是需要被高度怀疑的。因为就像刚才讲的，Coding Agent + Skill，基本就能实现垂直 Agent 的效果跟作用了。

曲凯：不止垂直 Agent，最近很多人都说 SaaS 都被打趴了。

文锋：对。很多人觉得 Coding Agent 就是一个给工程师用的工具，但实际上它已经能做各种事了。

比如，Anthropic 前段时间发布了一份 Claude Code 的使用场景报告，其中超过 50% 的使用场景其实并不是 Coding，而是数据分析、marketing、文案等任务。

在这种情况下，如果我们还在强调垂直 Agent，更多可能是为了获得心理安全感、回避和 Claude Code 这样具有通用能力的产品正面竞争。

曲凯：我前一阵刚听到一个挺有意思的问题：

抖音是内容时代的王者，基本一站式聚合了所有内容。但 ToB 领域过去一直是垂直的，比如美国有一堆市值上百亿美金的垂直 SaaS 公司。

那未来 ToB 领域里，会不会也出现类似字节这种一家独大的公司？这家公司会不会就是 OpenAI 或 Anthropic？

文锋：说实话，我现在还很难预判。

但我们可以先分析一下，为什么过去会出现那么多垂直 SaaS。

核心在于，软件第一次让专家能力能够被快速、规模化地复制。SaaS 这套逻辑，本质上就是一套标准化的 SOP，或者说一套工作流。

在软件出现之前，大家想获得专家的经验和决策能力，只能靠长时间的培训和学习。而有了软件之后，用户可能只需要花一个下午学会操作一套固定的交互，就能获得接近专家的水平。

但 Agent 让获得专家能力这件事变得更容易了。

现在直接跟 Agent 说目的，它就能自己提出方案、解决问题、自我迭代。何况 Agent 的使用门槛还在继续下降。那对绝大多数人来说，为什么还要继续用 SaaS？

曲凯：对，而且以前的 SaaS 更像一个通用专家，大家用的是同一套 best practice。但每家公司的情况其实都不一样，AI 相当于给每家公司都配了一个能随时调整的客制化专家。

所以你非常认可 AI 和 Agent 会颠覆 SaaS？

文锋：是的。然后回到刚才曲老师那个问题：未来会不会出现一个企业版的抖音？

我觉得会。

因为在 AI 时代，best practice 可能没那么重要了。

过去之所以强调 best practice，是因为面对长尾需求时，我们没有更好的解决方案；但今天，best practice 和非 best practice 的东西交给 AI 去执行，其实差别都没那么大。

所以如果通用 Agent 的逻辑成立，那最后肯定会有一个统一的东西能解决绝大多数的问题，只是这家公司长什么样、会不会是 OpenAI 或者 Anthropic 还不好说。

曲凯：明白。刚刚讲的其实可以总结成两点：一是 SaaS 的软件价值会被 AI Coding 替代，二是 SaaS 的 know-how 价值会被 Skill 替代。

前者我很同意，因为如果软件真正的壁垒只在 Coding 上，那美国的 SaaS 公司早就该被中国公司取代了，毕竟中国的人力成本更低。但现实并不是这样。

但后者我想再追问一下：毕竟现在的 Skill 还很简单，它真的能替代那么复杂的一整套 SaaS know-how 吗？

文锋：我现在倾向于是的。

Skill 刚出来的时候，我就发过一条动态，说它被低估了。

现在大家质疑 Skill 能不能复现原来的 SaaS 工作流，本质上还是在怀疑模型能力。

但今天最大的问题，其实已经不在于模型会不会替代 SaaS、Agent 能不能做复杂任务了。

这些基本已经被证明了。

比如 OpenClaw，最让我震撼的不是产品本身，而是它的作者在火起来之前，天天都在 AI Coding，单日 commit 最高甚至能到 1600 次，差不多相当于一个三四人团队一年的工作量。

我之前完全没想到 AI Coding 能做到这种程度。

再比如今年 1 月，Cursor 用 Agent 一周做出了一个浏览器，产出了 300 万行代码；Anthropic 也用 Agent 端到端实现过一个 C 语言编译器。

所以从解决长程复杂任务的能力来看，现在的 Coding Agent 已经摸到能力天花板了。

它真正遇到的问题有两个：

一个是，大多数人还不知道它已经强到什么程度。打个不太恰当的比方：如果一个月能消耗 2–3 万美元 Token 的用户是 90 分水平，那今天绝大多数人对 Agent 的使用还停留在 10 分左右。而且这种差距不是线性的，用得好的人可能能获得 1000 倍的效率提升。

第二个问题是，即便大家意识到 Coding Agent 已经很强了，也不一定真能把它用好。像 OpenClaw 虽然证明了 AI Coding 的能力，但也被诟病配置和使用门槛太高。

曲凯：这是不是很多产品化的问题？

文锋：对，产品化很重要。但我还不确定 OpenClaw 这种形态是不是最佳答案。

现在有人把 OpenClaw 比作 Linux 内核。就没什么人直接用原生 Linux，大家用的都是 Ubuntu 之类的发行版。类比来看，或许接下来也会出现很多 OpenClaw 的发行版。但我觉得沿着 OpenClaw 能做的事情远不止这些。

曲凯：当下全球应该就有上千个团队在围绕 OpenClaw 做事。

文锋：对。我觉得其中比较重要的机会，是怎么把 OpenClaw，或者说 Coding Agent 的套壳，做成普通人也能用起来的产品。

曲凯：这一定是今年的主线，而且大有可为。我看现在 OpenClaw 大概有 200 多万个 Agents，然后 Manus 应该是几十万的用户量级。Cursor 估计也是几十万到百万的量级？

文锋：我更多关注的是 Claude Code 和 Codex。Codex 日活用户已经到 100 万了，Claude Code 可能是它的 3 到 5 倍。这两个产品加起来大概有 500 万的活跃用户，不过其中更多都是工程师。

曲凯：对，所以我想讲的是，大家能不能有一个 vision：未来 Agent 的用户量会达到 10 亿。我觉得是一定的。

文锋：是的，从渗透率来讲，现在连 1% 都没到。

曲凯：对，所以某种程度上讲，Coding Agent 未来会变成基础设施。

然后我们提 OpenClaw 的时候，经常会提到几个点：长程任务、Proactive 主动性，以及自我进化。

我们可以把这几个点分开讲一讲。能不能先给大家解释一下长程任务？

文锋：长程任务最直观的一个表现，就是 Agent 完成一个任务时所需步骤的数量。

如果大家用过 Manus 之类的产品，会发现它在工作的过程中，会把中间每一步在做什么、调用了哪些工具展示出来。一个任务越复杂，执行步骤往往就越多。

现在大多数任务还集中在几十步，但到了今年，我们可能会看到 Agent 能完成几百步、甚至上千步的任务了。

这中间核心的进步，是 Agent 对问题的拆解能力。

曲凯：但我记得去年我们聊这件事的时候，提到过一个问题：

步骤一旦增多，就会带来不确定性，准确率也会下降。我记得你当时说，哪怕每一步的正确率都是 90%，相乘之后最终整体的正确率也会非常低。

这个问题现在还存在吗？还是已经被解决了？

文锋：我觉得应该是解决了。

去年的思路，还是把 Agent 当成一个状态机。这些状态存在内存里，一步步往下走，是不可逆的。

但现在不一样了。

今天的状态是落到文件上，这样哪怕前面几步做错了，Agent 意识到有问题之后，能非常明确地看到问题出在哪，然后直接把文件改掉、把错误修复掉。

曲凯：这些长程任务能力，包括自我修复能力，能不能理解成是基模能力提升带来的？

文锋：基模能力是一方面。

另一方面是大家实践出了更好释放模型能力的工程方法论，也就是把模型和文件系统或者虚拟机结合在一起，让模型自己去组织数据和逻辑。

曲凯：这其实就是我们去年聊的 context，对吧？

现在看，最好的 context 可能就是给模型一台电脑或者一个文件夹。

文锋：没错。去年的逻辑，还是人去控制 context；

但今天我们会发现，最有效的方式不是人去控制 context，而是让 Agent 自己去维护 context。

曲凯：这其实还是回到当时 hidecloud 讲的那句话：Less structure, more intelligence.

文锋：对。其实人家一直就是对的。只是有的人不信这件事，或者有的人虽然信，但还是想做一些差异化。最后这些所谓的差异化，很可能只是一些雕花工作，不一定 work。

曲凯：是。然后主动性这件事该怎么理解？

文锋：主动性和长程任务其实是紧密相关的。

我们现在用 AI，大多还是一次性任务，比如写个报告、做个小程序，做完就结束了。

但 Proactive Agent 能做两类事情。

一类是可重复执行的任务。比如每天早上 8 点给我发一份昨天的工作总结，或者每天晚上 10 点整理当天群里的讨论重点。

另一类更进一步：我不需要主动告诉 AI 我要什么，它可以基于过去的交互，判断我现在需要什么，并主动提供。在这个过程中，它还能不断学习和优化。

曲凯：第一类更像是「被动触发的主动」？就还是人在提需求。第二类才更接近大家理解的 proactive？

文锋：这两者其实是第一步和第二步的区别。

Proactive Agent 的核心，是它能不能主动探索，并且自己反思、总结、迭代。

完成定时任务也是一种主动，不过更高级的主动，确实是日积月累之后，AI 能越来越了解你的业务、性格、角色，然后某天主动告诉你：「我发现了一个问题，想了个方案，你看看这么搞行不行？」

曲凯：就是字节讲的「context, not control」，只要给足 context，它足够懂你，就会主动处理很多事情。

所以现在包括 OpenClaw 在内的 Agent，在 proactive 这点上做到哪一步了？

文锋：我觉得还在 setup 的过程中，就这个概念还是比较抽象。

如果一定要定义一下，我觉得可以从产品形态上做个推演：

Manus 让大家看到，Agent 可以端到端完成任务了，不过还是需要「人管 AI」；

但我最近一直在研究大家是怎么用 OpenClaw 的。我觉得它最大的作用就是让大家看到了「AI 管 AI」的可能性。

所以 Proactive Agent 可能会是一个「能管理 AI 的 Agent」：

它能根据团队内部的特点，自己提出需求，去搭建一些专门解决特定问题的 Agent；任务完成之后，再把经验沉淀下来，把这些临时 Agent 释放掉。

曲凯：「AI 管 AI」其实也和 Agent 的自进化有关，对吧？现在大家常说一个人的效率可以提升十倍、百倍，那如果 Agent 的主动性足够强，未来会不会真的能替代所有人类？

文锋：我觉得没有这么绝对。

可以参考 AI 最早落地的客服行业。以前需要 10 个客服，有了 AI 之后，可能只需要留 1 个。

Proactive Agent 出现后，可能也会是类似的情况：从需要 10 个工程师，变成可能只需要留下 2 个。

而这 2 个人不可被替代的地方，一是大家常说的 taste；二是协作中的默契。

如果一件事情需要我掰开揉碎讲清楚，一个员工才能理解，那 Ta 可能就比较危险，因为我有和 Ta 解释的这个时间，早就能让 AI 把事情做完了。

我们真正需要的，是那种我点一下，Ta 就知道我在想什么、要什么的人。而这种默契，往往是长期合作中培养出来的，或者说来自于悟性吧。

曲凯：我觉得悟性很多时候也来自于之前的 context。比如一个人在字节待过几年，到你这之后，你点一句，Ta 就知道了。

但这里也有一个问题。现在像 Moltbook 这类产品，都在讲 AI 和 AI 之间的交流和学习。这件事真的成立吗？作用到底有多大？

文锋：以目前 Agent 的实际能力来看，是可以实现的。

但关键问题在于，有多少东西值得被这样分发和复制。

在企业场景里，不同公司的流程和业务差异很大，所以 Agent 之间学到的东西，未必可以直接复用，中间还是需要磨合。

比如我们内部的 Coding Agent 是围绕自己的代码仓库和工作流优化出来的，直接放到另一家公司，未必还有同样的价值。

所以前面讲 Proactive Agent 的时候，我提到了一个关键点，就是要结合自身情况去做定制。因为至少在现阶段，它还不是一个开箱即用的东西。你不可能买一个产品装上，它就能自动读你的文档、吸收你的信息，然后自己长出一套完整体系。

曲凯：明白。那你自己在用 OpenClaw 的过程中，有没有遇到过什么 aha moment？

文锋：最大的 aha moment，是春节前大概用了一周，AI 就基本能直接把我们内部的工作流跑通了，让我们的工程师从一个 AI 指挥者，变成了一个质检员一样的角色。

我们原来的工作流是这样的：先用 Linear 管理用户反馈和需求，然后每天开会把任务分发给工程师。工程师再基于这些需求，用 Claude Code 等工具开发和测试，之后提 PR、再合并。

但 OpenClaw 出来之后，我们把各种权限逐步开放给 AI，发现绝大多数任务它都可以直接完成。甚至在测试过程中，如果发现前端有问题，还会附上截图。

这给了我很大的震撼。我们之前没想到 AI 能做到这个地步。

曲凯：所以你们现在的效率大概提升了多少？

文锋：我个人的效率至少比去年这个时候提升了 10 倍。

曲凯：那是不是意味着，过去要花一年做出来的产品，现在可能一两个月，甚至更短时间就能完成？

文锋：一两个月其实都太慢了，可能两周就够了。

所以现在真正的瓶颈，已经不在生产效率上了，而是你要做什么、以及要做成什么样。

以前大家说「idea is cheap」，但我现在反而觉得不是。

生产能力越丰饶，真正有意思的东西反而越稀缺。

曲凯：所以你今年还会期待哪些新的方向？

文锋：我比较期待的是 Agent Harness。

这是一个去年 9 月底左右在硅谷出现的概念，现在还只是在小范围流行。

它的核心作用，就好比人要骑马，得有马鞍一样。越是好马越狂野、越需要马鞍的约束。Agent 也一样。如果把 Agent 比作一匹绝世好马，我们该怎么去控制它的行为？

这时候就需要 Agent Harness。

它不像以前的软件那样有很清晰的分层：最底层是 Infra，中间是 SaaS，最上面才是终端用户。

Agent Harness 更像一个直接面向终端用户的脚手架，能让你针对不同公司的业务特点、团队协作方式和内部环境，搭出一套适合自己的系统，让业务能更快跑起来。

曲凯：明白。那你们自己呢？今年会做什么新的事情吗？

文锋：我们很快会发布一个新版本，把刚刚讲的那套内部流程产品化。

曲凯：那这是个大转型啊。

文锋：对。我们现在的思路是做「管 AI 的 AI」。

我现在的判断是，继续去做一个更聪明、或者比别人再好一点的 Agent，价值已经没那么大了。因为几乎没有什么事情是一个精心配置过的 Coding Agent 做不到的。

问题在于，现在的配置过程太复杂、门槛太高。所以我们想做一个 AI，帮大家更好地管理和配置这些 AI。就相当于我手下已经有 5 个 AI 在干活，但我自己管不过来，那就再雇一个专门负责管理它们的 AI。

去年我们太依赖预判了，总想讲一个不一样的故事。但今年我们的策略变成了「预判为辅，跟随为主」。

曲凯：可以，非常好。我们聊过那么多创业者，我觉得你这句话有了一种非常成熟创业者的感觉（笑）。

我们刚和 Albert 聊过一期（回顾：，其中一个很重要的点就是「要优化胜率，而不是赔率」，也就是更务实地把确定性更高的事情先做好。

文锋：对。我们内部其实讨论过一个问题：

如果回到 2025 年 3 月，要不要做 Genspark？

我们团队里只有 1.5 个人说要做。

就大家其实都是技术和产品上的理想主义者。但「不做」的这个选择本质上是在优化赔率，而不是优化胜率。

所以今年我们要做的是一种可以快速修正方向和重点的产品形态，具体而言就是前面讲的「能管 AI 的 AI」。

而之所以选择 Coding 这个场景，是因为 Coding Agent 正在进入一个新阶段：

第一阶段的 Coding Agent 是 Copilot，主要靠代码补全；

第二阶段是 Claude Code 这类 Coding Assistant，还是需要程序员主动 prompt；

而进入第三阶段，AI 已经可以指挥 AI 写代码了。它不再需要人一句句输入需求，而是可以自己去发现、澄清需求，然后调度执行。

在我们团队里，这件事已经在慢慢落地。但现在的问题是，大家用 AI 的水平差距太大。很多团队也希望用 AI 把效率提升 10 倍、甚至 100 倍，但并不知道该怎么做。

曲凯：所以你们在做的，其实也是 AI Coding 的平权。

文锋：对。而且「用 AI 更好地提效」这件事，在我们团队内部也是一个非常迫切的需求。

曲凯：我觉得这点很好。好就好在，我发现很多做得好的公司和产品都有一个共性，就是它们自己就是用户，能够形成一个正向的迭代循环。

那你们现在的用户画像大概是什么样？

文锋：大概一半是 founder，1/4 是超级产品经理，另外 1/4 是很强的 builder。这些人基本上都是日消耗超过 1 亿 Token 的用户。

我觉得 Agent 时代也会像 SaaS 一样，有 to enterprise 和 to 中小 B 的不同商业模式。但它未必是按组织人数来分层，而是按 Token 消耗来分层。

而日消耗 1 亿 Token 的用户，某种程度上就相当于 SaaS 时代的世界 500 强。

曲凯：如果把 C 端也分成中大 C 和小 C，你们其实就是选择先做中大 C？

文锋：可以这么理解。但如果一个用户一年能给我贡献 10 万美金，我为什么还需要关心 Ta 是个人还是团队？

不过一个很大的变化是，过去你几乎不可能从一个人或一个小组织身上收到 10 万美金，但今天可以。这笔钱，其实就是他们原本招工程师的预算。

曲凯：但我在想，如果 AI 的效率真的这么高，就会有更多人去学 AI，也可能会出现更多的 OPC，那最终还是会回到一个产品的供需问题？就这个世界到底需不需要这么多产品？如果人人都是一人独角兽，需求又从哪里来？

文锋：我觉得未来的供需可能会形成一个负反馈循环。

市场的需求是层层嵌套的。正向循环是企业发工资，员工去消费，再把需求传回企业，让需求盘子不断扩大。但如果很多人失业，消费需求下降，整个需求盘子就会萎缩。

所以我现在只考虑未来 3 到 6 个月的事情，因为我也不知道将来会变成什么样子…

曲凯：有点像平台要打掉中间商？现在劳动力市场里的「中间商」其实就是具体干活的人。OPC 就是把员工都打掉，AI 相当于把中间的人替代掉。

文锋：对。如果这个过程发展得太快，社会稳定可能会面临很大的问题。这个问题很复杂，我觉得需要更聪明的人去解决。

曲凯：那在这种情况下，你们团队现在有什么变化吗？

文锋：我们现在招人非常谨慎和苛刻。

如果按以前的标准，我们可能已经扩到 20 人了，但现在实际上只有 7 个人。不过这 7 个人的产出和效率，已经接近过去三五十人的团队的水平。

曲凯：这些人的 AI Coding 能力，是可以培养出来的吗？还是一开始就得是特别强的人？

文锋：我觉得是可以培养和训练出来的，但前提是组织愿意给足 Token 额度。

曲凯：但这也是个问题。比如一个人一天要消耗上千美金的 Token，你怎么衡量 Ta 的产出？

文锋：现阶段更重要的是先让大家跟上，跟不上的就淘汰。

至于怎么衡量，是下一阶段才需要考虑的事。我现在的看法是还得靠人，比如 CEO 得去看一个人的 Token 消耗和产出是不是 match。如果不 match，那就说明这个人有问题，然后要么解决问题，要么解决人。

曲凯：OK。你刚刚说你现在只看未来 3–6 个月，那去年你在解决的是多长时间维度的问题？

文锋：去年我一直在解决 5 到 10 年之后的问题。

但我的反思是，不要去解决那些人们还没遇到瓶颈的问题。

比如去年 Sheet0 很想追求 100% 可解释、100% 准确，这当然是很正确、也很有价值的方向，你问任何人需不需要，大家都会说需要。但问题是，当下模型还做不到这件事，而且大多数用户对准确性也没那么敏感。

所以我们今天的思路，就是解决大家已经遇到的瓶颈。

比如现在工程师们的一个真实问题，就是注意力会被十几个 terminal 窗口牵制住。我们在做的「AI 管 AI」，本质上就是顺着这个需求往前多走半步，以跟随为主。

曲凯：为什么说这是跟随？现在做类似事情的人还不多。

文锋：就是在跟随一个明确的趋势。

AI 变化太快，预判的有效期越来越短。以前一个判断可能能管半年，现在可能只管一两个月，甚至更短。那在这种情况下，我就不做那么长远的预判了。因为一旦判断错，转向成本会很高，反应也会变慢。

曲凯：尤其是 AI Coding 提升了效率，有个判断很快就能验证。

文锋：对。所以更重要的是解放团队的思维，而这里面最难的，是放下 ego。

还是回到前面那个问题：如果回到去年 3 月，你要不要做 Genspark？

现在一年过去了，Genspark 已经这么成功了，如果你的第一反应还是不做，从商业逻辑上来讲就很离谱。

很多时候大家为了讲差异化，会过度放大自己的 ego。但我们现在的调整，是迅速发现自己哪些地方没做对，然后更理性、客观地判断机会，去下注当下最明确的那个方向。

42章经

思考事物本质