OpenClaw 之后,我只想未来 3-6 个月的事情|42章经
创事记
来源:42章经
本期播客原文约 18000 字,本文经过删减整理后约 7800 字。
曲凯:很开心又请到文锋。我们上次录节目大概是一年前,当时 Manus 刚发布不久,我们聊了很多 Agent 相关的话题。
最近 OpenClaw 又带起了一波 Agent 热,你觉得这一波和去年的区别是什么?
文锋:我没觉得有本质区别。
Manus 跟 OpenClaw 都证明了一类新形态的产品。
Manus 那波的核心来源是 o1 模型带来的推理能力与思维链能力,而 Manus 本身是模型 API 时代套壳的极致表现。
这次 OpenClaw 之所以这么火,本质是因为它是第一个真正把最新模型 Coding 能力压到极致的产品形态。而且它让大家看到了,有主动性、能够自我迭代和进化的 Proactive Agent 到底长什么样子。
曲凯:去年那期播客里,你说过一句让我印象特别深的话:AI Coding 是大模型的灵巧手。
文锋:对,这件事已经被证明了。
不过相比去年「灵巧手」的结论,今年其实可以再往前一步:
接下来所有 Agent,本质上都是 Coding Agent。
拿 OpenClaw 举例。虽然它有很多组件和模块,但核心其实是一个叫 ClawPad 的 Coding Agent。OpenClaw 本质上就是当下围绕 Coding Agent 套壳的最佳实践,只是额外解决了 Memory 和集成等问题。
再比如,去年大家还认为,不同场景需要不同的环境和产品策略,因为垂直 know-how 很难 scale、也很难复制。但其实今天的 Coding Agent 加上 Skill,基本可以覆盖大多数场景了。
所以今年的一大机会,就是看谁能把 Coding Agent 的「套壳」做得足够好。
曲凯:是。那如果我们拿今天跟一年前去对比,一年前是 Manus 先起来,Genspark 最快跟上,然后陆续有些小产品也出来,中间还衍生出来一些分歧跟选择:有人做通用 Agent,有人做 Agent 平台,也有做各种垂直 Agent 的。回头来看,你觉得这些路径中有什么对错标准吗?
文锋:虽然我很不愿意承认,但现在来看,垂直 Agent 这条路可能是需要被高度怀疑的。因为就像刚才讲的,Coding Agent + Skill,基本就能实现垂直 Agent 的效果跟作用了。
曲凯:不止垂直 Agent,最近很多人都说 SaaS 都被打趴了。
文锋:对。很多人觉得 Coding Agent 就是一个给工程师用的工具,但实际上它已经能做各种事了。
比如,Anthropic 前段时间发布了一份 Claude Code 的使用场景报告,其中超过 50% 的使用场景其实并不是 Coding,而是数据分析、marketing、文案等任务。
在这种情况下,如果我们还在强调垂直 Agent,更多可能是为了获得心理安全感、回避和 Claude Code 这样具有通用能力的产品正面竞争。
曲凯:我前一阵刚听到一个挺有意思的问题:
抖音是内容时代的王者,基本一站式聚合了所有内容。但 ToB 领域过去一直是垂直的,比如美国有一堆市值上百亿美金的垂直 SaaS 公司。
那未来 ToB 领域里,会不会也出现类似字节这种一家独大的公司?这家公司会不会就是 OpenAI 或 Anthropic?
文锋:说实话,我现在还很难预判。
但我们可以先分析一下,为什么过去会出现那么多垂直 SaaS。
核心在于,软件第一次让专家能力能够被快速、规模化地复制。SaaS 这套逻辑,本质上就是一套标准化的 SOP,或者说一套工作流。
在软件出现之前,大家想获得专家的经验和决策能力,只能靠长时间的培训和学习。而有了软件之后,用户可能只需要花一个下午学会操作一套固定的交互,就能获得接近专家的水平。
但 Agent 让获得专家能力这件事变得更容易了。
现在直接跟 Agent 说目的,它就能自己提出方案、解决问题、自我迭代。何况 Agent 的使用门槛还在继续下降。那对绝大多数人来说,为什么还要继续用 SaaS?
曲凯:对,而且以前的 SaaS 更像一个通用专家,大家用的是同一套 best practice。但每家公司的情况其实都不一样,AI 相当于给每家公司都配了一个能随时调整的客制化专家。
所以你非常认可 AI 和 Agent 会颠覆 SaaS?
文锋:是的。然后回到刚才曲老师那个问题:未来会不会出现一个企业版的抖音?
我觉得会。
因为在 AI 时代,best practice 可能没那么重要了。
过去之所以强调 best practice,是因为面对长尾需求时,我们没有更好的解决方案;但今天,best practice 和非 best practice 的东西交给 AI 去执行,其实差别都没那么大。
所以如果通用 Agent 的逻辑成立,那最后肯定会有一个统一的东西能解决绝大多数的问题,只是这家公司长什么样、会不会是 OpenAI 或者 Anthropic 还不好说。
曲凯:明白。刚刚讲的其实可以总结成两点:一是 SaaS 的软件价值会被 AI Coding 替代,二是 SaaS 的 know-how 价值会被 Skill 替代。
前者我很同意,因为如果软件真正的壁垒只在 Coding 上,那美国的 SaaS 公司早就该被中国公司取代了,毕竟中国的人力成本更低。但现实并不是这样。
但后者我想再追问一下:毕竟现在的 Skill 还很简单,它真的能替代那么复杂的一整套 SaaS know-how 吗?
文锋:我现在倾向于是的。
Skill 刚出来的时候,我就发过一条动态,说它被低估了。
现在大家质疑 Skill 能不能复现原来的 SaaS 工作流,本质上还是在怀疑模型能力。
但今天最大的问题,其实已经不在于模型会不会替代 SaaS、Agent 能不能做复杂任务了。
这些基本已经被证明了。
比如 OpenClaw,最让我震撼的不是产品本身,而是它的作者在火起来之前,天天都在 AI Coding,单日 commit 最高甚至能到 1600 次,差不多相当于一个三四人团队一年的工作量。
我之前完全没想到 AI Coding 能做到这种程度。
再比如今年 1 月,Cursor 用 Agent 一周做出了一个浏览器,产出了 300 万行代码;Anthropic 也用 Agent 端到端实现过一个 C 语言编译器。
所以从解决长程复杂任务的能力来看,现在的 Coding Agent 已经摸到能力天花板了。
它真正遇到的问题有两个:
一个是,大多数人还不知道它已经强到什么程度。打个不太恰当的比方:如果一个月能消耗 2–3 万美元 Token 的用户是 90 分水平,那今天绝大多数人对 Agent 的使用还停留在 10 分左右。而且这种差距不是线性的,用得好的人可能能获得 1000 倍的效率提升。
第二个问题是,即便大家意识到 Coding Agent 已经很强了,也不一定真能把它用好。像 OpenClaw 虽然证明了 AI Coding 的能力,但也被诟病配置和使用门槛太高。
曲凯:这是不是很多产品化的问题?
文锋:对,产品化很重要。但我还不确定 OpenClaw 这种形态是不是最佳答案。
现在有人把 OpenClaw 比作 Linux 内核。就没什么人直接用原生 Linux,大家用的都是 Ubuntu 之类的发行版。类比来看,或许接下来也会出现很多 OpenClaw 的发行版。但我觉得沿着 OpenClaw 能做的事情远不止这些。
曲凯:当下全球应该就有上千个团队在围绕 OpenClaw 做事。
文锋:对。我觉得其中比较重要的机会,是怎么把 OpenClaw,或者说 Coding Agent 的套壳,做成普通人也能用起来的产品。
曲凯:这一定是今年的主线,而且大有可为。我看现在 OpenClaw 大概有 200 多万个 Agents,然后 Manus 应该是几十万的用户量级。Cursor 估计也是几十万到百万的量级?
文锋:我更多关注的是 Claude Code 和 Codex。Codex 日活用户已经到 100 万了,Claude Code 可能是它的 3 到 5 倍。这两个产品加起来大概有 500 万的活跃用户,不过其中更多都是工程师。
曲凯:对,所以我想讲的是,大家能不能有一个 vision:未来 Agent 的用户量会达到 10 亿。我觉得是一定的。
文锋:是的,从渗透率来讲,现在连 1% 都没到。
曲凯:对,所以某种程度上讲,Coding Agent 未来会变成基础设施。
然后我们提 OpenClaw 的时候,经常会提到几个点:长程任务、Proactive 主动性,以及自我进化。
我们可以把这几个点分开讲一讲。能不能先给大家解释一下长程任务?
文锋:长程任务最直观的一个表现,就是 Agent 完成一个任务时所需步骤的数量。
如果大家用过 Manus 之类的产品,会发现它在工作的过程中,会把中间每一步在做什么、调用了哪些工具展示出来。一个任务越复杂,执行步骤往往就越多。
现在大多数任务还集中在几十步,但到了今年,我们可能会看到 Agent 能完成几百步、甚至上千步的任务了。
这中间核心的进步,是 Agent 对问题的拆解能力。
曲凯:但我记得去年我们聊这件事的时候,提到过一个问题:
步骤一旦增多,就会带来不确定性,准确率也会下降。我记得你当时说,哪怕每一步的正确率都是 90%,相乘之后最终整体的正确率也会非常低。
这个问题现在还存在吗?还是已经被解决了?
文锋:我觉得应该是解决了。
去年的思路,还是把 Agent 当成一个状态机。这些状态存在内存里,一步步往下走,是不可逆的。
但现在不一样了。
今天的状态是落到文件上,这样哪怕前面几步做错了,Agent 意识到有问题之后,能非常明确地看到问题出在哪,然后直接把文件改掉、把错误修复掉。
曲凯:这些长程任务能力,包括自我修复能力,能不能理解成是基模能力提升带来的?
文锋:基模能力是一方面。
另一方面是大家实践出了更好释放模型能力的工程方法论,也就是把模型和文件系统或者虚拟机结合在一起,让模型自己去组织数据和逻辑。
曲凯:这其实就是我们去年聊的 context,对吧?
现在看,最好的 context 可能就是给模型一台电脑或者一个文件夹。
文锋:没错。去年的逻辑,还是人去控制 context;
但今天我们会发现,最有效的方式不是人去控制 context,而是让 Agent 自己去维护 context。
曲凯:这其实还是回到当时 hidecloud 讲的那句话:Less structure, more intelligence.
文锋:对。其实人家一直就是对的。只是有的人不信这件事,或者有的人虽然信,但还是想做一些差异化。最后这些所谓的差异化,很可能只是一些雕花工作,不一定 work。
曲凯:是。然后主动性这件事该怎么理解?
文锋:主动性和长程任务其实是紧密相关的。
我们现在用 AI,大多还是一次性任务,比如写个报告、做个小程序,做完就结束了。
但 Proactive Agent 能做两类事情。
一类是可重复执行的任务。比如每天早上 8 点给我发一份昨天的工作总结,或者每天晚上 10 点整理当天群里的讨论重点。
另一类更进一步:我不需要主动告诉 AI 我要什么,它可以基于过去的交互,判断我现在需要什么,并主动提供。在这个过程中,它还能不断学习和优化。
曲凯:第一类更像是「被动触发的主动」?就还是人在提需求。第二类才更接近大家理解的 proactive?
文锋:这两者其实是第一步和第二步的区别。
Proactive Agent 的核心,是它能不能主动探索,并且自己反思、总结、迭代。
完成定时任务也是一种主动,不过更高级的主动,确实是日积月累之后,AI 能越来越了解你的业务、性格、角色,然后某天主动告诉你:「我发现了一个问题,想了个方案,你看看这么搞行不行?」
曲凯:就是字节讲的「context, not control」,只要给足 context,它足够懂你,就会主动处理很多事情。
所以现在包括 OpenClaw 在内的 Agent,在 proactive 这点上做到哪一步了?
文锋:我觉得还在 setup 的过程中,就这个概念还是比较抽象。
如果一定要定义一下,我觉得可以从产品形态上做个推演:
Manus 让大家看到,Agent 可以端到端完成任务了,不过还是需要「人管 AI」;
但我最近一直在研究大家是怎么用 OpenClaw 的。我觉得它最大的作用就是让大家看到了「AI 管 AI」的可能性。
所以 Proactive Agent 可能会是一个「能管理 AI 的 Agent」:
它能根据团队内部的特点,自己提出需求,去搭建一些专门解决特定问题的 Agent;任务完成之后,再把经验沉淀下来,把这些临时 Agent 释放掉。
曲凯:「AI 管 AI」其实也和 Agent 的自进化有关,对吧?现在大家常说一个人的效率可以提升十倍、百倍,那如果 Agent 的主动性足够强,未来会不会真的能替代所有人类?
文锋:我觉得没有这么绝对。
可以参考 AI 最早落地的客服行业。以前需要 10 个客服,有了 AI 之后,可能只需要留 1 个。
Proactive Agent 出现后,可能也会是类似的情况:从需要 10 个工程师,变成可能只需要留下 2 个。
而这 2 个人不可被替代的地方,一是大家常说的 taste;二是协作中的默契。
如果一件事情需要我掰开揉碎讲清楚,一个员工才能理解,那 Ta 可能就比较危险,因为我有和 Ta 解释的这个时间,早就能让 AI 把事情做完了。
我们真正需要的,是那种我点一下,Ta 就知道我在想什么、要什么的人。而这种默契,往往是长期合作中培养出来的,或者说来自于悟性吧。
曲凯:我觉得悟性很多时候也来自于之前的 context。比如一个人在字节待过几年,到你这之后,你点一句,Ta 就知道了。
但这里也有一个问题。现在像 Moltbook 这类产品,都在讲 AI 和 AI 之间的交流和学习。这件事真的成立吗?作用到底有多大?
文锋:以目前 Agent 的实际能力来看,是可以实现的。
但关键问题在于,有多少东西值得被这样分发和复制。
在企业场景里,不同公司的流程和业务差异很大,所以 Agent 之间学到的东西,未必可以直接复用,中间还是需要磨合。
比如我们内部的 Coding Agent 是围绕自己的代码仓库和工作流优化出来的,直接放到另一家公司,未必还有同样的价值。
所以前面讲 Proactive Agent 的时候,我提到了一个关键点,就是要结合自身情况去做定制。因为至少在现阶段,它还不是一个开箱即用的东西。你不可能买一个产品装上,它就能自动读你的文档、吸收你的信息,然后自己长出一套完整体系。
曲凯:明白。那你自己在用 OpenClaw 的过程中,有没有遇到过什么 aha moment?
文锋:最大的 aha moment,是春节前大概用了一周,AI 就基本能直接把我们内部的工作流跑通了,让我们的工程师从一个 AI 指挥者,变成了一个质检员一样的角色。
我们原来的工作流是这样的:先用 Linear 管理用户反馈和需求,然后每天开会把任务分发给工程师。工程师再基于这些需求,用 Claude Code 等工具开发和测试,之后提 PR、再合并。
但 OpenClaw 出来之后,我们把各种权限逐步开放给 AI,发现绝大多数任务它都可以直接完成。甚至在测试过程中,如果发现前端有问题,还会附上截图。
这给了我很大的震撼。我们之前没想到 AI 能做到这个地步。
曲凯:所以你们现在的效率大概提升了多少?
文锋:我个人的效率至少比去年这个时候提升了 10 倍。
曲凯:那是不是意味着,过去要花一年做出来的产品,现在可能一两个月,甚至更短时间就能完成?
文锋:一两个月其实都太慢了,可能两周就够了。
所以现在真正的瓶颈,已经不在生产效率上了,而是你要做什么、以及要做成什么样。
以前大家说「idea is cheap」,但我现在反而觉得不是。
生产能力越丰饶,真正有意思的东西反而越稀缺。
曲凯:所以你今年还会期待哪些新的方向?
文锋:我比较期待的是 Agent Harness。
这是一个去年 9 月底左右在硅谷出现的概念,现在还只是在小范围流行。
它的核心作用,就好比人要骑马,得有马鞍一样。越是好马越狂野、越需要马鞍的约束。Agent 也一样。如果把 Agent 比作一匹绝世好马,我们该怎么去控制它的行为?
这时候就需要 Agent Harness。
它不像以前的软件那样有很清晰的分层:最底层是 Infra,中间是 SaaS,最上面才是终端用户。
Agent Harness 更像一个直接面向终端用户的脚手架,能让你针对不同公司的业务特点、团队协作方式和内部环境,搭出一套适合自己的系统,让业务能更快跑起来。
曲凯:明白。那你们自己呢?今年会做什么新的事情吗?
文锋:我们很快会发布一个新版本,把刚刚讲的那套内部流程产品化。
曲凯:那这是个大转型啊。
文锋:对。我们现在的思路是做「管 AI 的 AI」。
我现在的判断是,继续去做一个更聪明、或者比别人再好一点的 Agent,价值已经没那么大了。因为几乎没有什么事情是一个精心配置过的 Coding Agent 做不到的。
问题在于,现在的配置过程太复杂、门槛太高。所以我们想做一个 AI,帮大家更好地管理和配置这些 AI。就相当于我手下已经有 5 个 AI 在干活,但我自己管不过来,那就再雇一个专门负责管理它们的 AI。
去年我们太依赖预判了,总想讲一个不一样的故事。但今年我们的策略变成了「预判为辅,跟随为主」。
曲凯:可以,非常好。我们聊过那么多创业者,我觉得你这句话有了一种非常成熟创业者的感觉(笑)。
我们刚和 Albert 聊过一期(回顾:,其中一个很重要的点就是「要优化胜率,而不是赔率」,也就是更务实地把确定性更高的事情先做好。
文锋:对。我们内部其实讨论过一个问题:
如果回到 2025 年 3 月,要不要做 Genspark?
我们团队里只有 1.5 个人说要做。
就大家其实都是技术和产品上的理想主义者。但「不做」的这个选择本质上是在优化赔率,而不是优化胜率。
所以今年我们要做的是一种可以快速修正方向和重点的产品形态,具体而言就是前面讲的「能管 AI 的 AI」。
而之所以选择 Coding 这个场景,是因为 Coding Agent 正在进入一个新阶段:
第一阶段的 Coding Agent 是 Copilot,主要靠代码补全;
第二阶段是 Claude Code 这类 Coding Assistant,还是需要程序员主动 prompt;
而进入第三阶段,AI 已经可以指挥 AI 写代码了。它不再需要人一句句输入需求,而是可以自己去发现、澄清需求,然后调度执行。
在我们团队里,这件事已经在慢慢落地。但现在的问题是,大家用 AI 的水平差距太大。很多团队也希望用 AI 把效率提升 10 倍、甚至 100 倍,但并不知道该怎么做。
曲凯:所以你们在做的,其实也是 AI Coding 的平权。
文锋:对。而且「用 AI 更好地提效」这件事,在我们团队内部也是一个非常迫切的需求。
曲凯:我觉得这点很好。好就好在,我发现很多做得好的公司和产品都有一个共性,就是它们自己就是用户,能够形成一个正向的迭代循环。
那你们现在的用户画像大概是什么样?
文锋:大概一半是 founder,1/4 是超级产品经理,另外 1/4 是很强的 builder。这些人基本上都是日消耗超过 1 亿 Token 的用户。
我觉得 Agent 时代也会像 SaaS 一样,有 to enterprise 和 to 中小 B 的不同商业模式。但它未必是按组织人数来分层,而是按 Token 消耗来分层。
而日消耗 1 亿 Token 的用户,某种程度上就相当于 SaaS 时代的世界 500 强。
曲凯:如果把 C 端也分成中大 C 和小 C,你们其实就是选择先做中大 C?
文锋:可以这么理解。但如果一个用户一年能给我贡献 10 万美金,我为什么还需要关心 Ta 是个人还是团队?
不过一个很大的变化是,过去你几乎不可能从一个人或一个小组织身上收到 10 万美金,但今天可以。这笔钱,其实就是他们原本招工程师的预算。
曲凯:但我在想,如果 AI 的效率真的这么高,就会有更多人去学 AI,也可能会出现更多的 OPC,那最终还是会回到一个产品的供需问题?就这个世界到底需不需要这么多产品?如果人人都是一人独角兽,需求又从哪里来?
文锋:我觉得未来的供需可能会形成一个负反馈循环。
市场的需求是层层嵌套的。正向循环是企业发工资,员工去消费,再把需求传回企业,让需求盘子不断扩大。但如果很多人失业,消费需求下降,整个需求盘子就会萎缩。
所以我现在只考虑未来 3 到 6 个月的事情,因为我也不知道将来会变成什么样子…
曲凯:有点像平台要打掉中间商?现在劳动力市场里的「中间商」其实就是具体干活的人。OPC 就是把员工都打掉,AI 相当于把中间的人替代掉。
文锋:对。如果这个过程发展得太快,社会稳定可能会面临很大的问题。这个问题很复杂,我觉得需要更聪明的人去解决。
曲凯:那在这种情况下,你们团队现在有什么变化吗?
文锋:我们现在招人非常谨慎和苛刻。
如果按以前的标准,我们可能已经扩到 20 人了,但现在实际上只有 7 个人。不过这 7 个人的产出和效率,已经接近过去三五十人的团队的水平。
曲凯:这些人的 AI Coding 能力,是可以培养出来的吗?还是一开始就得是特别强的人?
文锋:我觉得是可以培养和训练出来的,但前提是组织愿意给足 Token 额度。
曲凯:但这也是个问题。比如一个人一天要消耗上千美金的 Token,你怎么衡量 Ta 的产出?
文锋:现阶段更重要的是先让大家跟上,跟不上的就淘汰。
至于怎么衡量,是下一阶段才需要考虑的事。我现在的看法是还得靠人,比如 CEO 得去看一个人的 Token 消耗和产出是不是 match。如果不 match,那就说明这个人有问题,然后要么解决问题,要么解决人。
曲凯:OK。你刚刚说你现在只看未来 3–6 个月,那去年你在解决的是多长时间维度的问题?
文锋:去年我一直在解决 5 到 10 年之后的问题。
但我的反思是,不要去解决那些人们还没遇到瓶颈的问题。
比如去年 Sheet0 很想追求 100% 可解释、100% 准确,这当然是很正确、也很有价值的方向,你问任何人需不需要,大家都会说需要。但问题是,当下模型还做不到这件事,而且大多数用户对准确性也没那么敏感。
所以我们今天的思路,就是解决大家已经遇到的瓶颈。
比如现在工程师们的一个真实问题,就是注意力会被十几个 terminal 窗口牵制住。我们在做的「AI 管 AI」,本质上就是顺着这个需求往前多走半步,以跟随为主。
曲凯:为什么说这是跟随?现在做类似事情的人还不多。
文锋:就是在跟随一个明确的趋势。
AI 变化太快,预判的有效期越来越短。以前一个判断可能能管半年,现在可能只管一两个月,甚至更短。那在这种情况下,我就不做那么长远的预判了。因为一旦判断错,转向成本会很高,反应也会变慢。
曲凯:尤其是 AI Coding 提升了效率,有个判断很快就能验证。
文锋:对。所以更重要的是解放团队的思维,而这里面最难的,是放下 ego。
还是回到前面那个问题:如果回到去年 3 月,你要不要做 Genspark?
现在一年过去了,Genspark 已经这么成功了,如果你的第一反应还是不做,从商业逻辑上来讲就很离谱。
很多时候大家为了讲差异化,会过度放大自己的 ego。但我们现在的调整,是迅速发现自己哪些地方没做对,然后更理性、客观地判断机会,去下注当下最明确的那个方向。
42章经
思考事物本质