史诗级进化,OpenAI「超级龙虾」震撼上线!
(来源:雷科技)
又是羡慕Mac用户的一天。
今天凌晨,OpenAI正式发布适用于macOS的新版Codex,并附文:
一言蔽之:Mac版的“原生龙虾”上线了。
自2月中旬将OpenClaw(龙虾)的创始人招揽进公司后,OpenAI在后续的两个月里就一直在捣鼓把OpenClaw的能力融入Codex中,如今终于看到了成效,而且一上线就是“王炸”。
接下来就让雷科技(ID:leitech)带大家看看,最新的Mac版Codex都能做什么。
从开发者到维护者,Codex已实现全自动化
OpenAI公布的Codex演示视频,首先展示了Codex在Mac环境下的自主开发、自主debug的能力。
用户向Codex下达指令:测试一个“井字棋”应用并修复所有的Bug。在接收到指令后,Codex自主打开Mac上的本地Xcode工程,并且依次点击井字棋项目的网格,最终定位到程序代码的位置并执行启动指令。
从这里就能看出来,Codex并非通过后端的API直接调用测试代码,而是真正通过图形界面(GUI)像普通用户一样去“使用”这个应用。两者的区别在于:前者只是代表其解决了指令理解和代码执行问题,本质上依赖于应用本身的开放API;后者则无需调用应用的API,即可通过图形识别来完成任务。
这意味着,Codex具有真正意义上的“通用执行能力”,因为很多第三方应用压根就不会给你开放API。对于以前的AI来说,这些应用就是一个“黑盒”,它知道对方的存在,却不能操作也不能读取。
而且,这里也展示了OpenAI强大的多模态视觉识别与坐标映射能力。Codex能够“看懂”模拟器上的UI元素,并决定鼠标应该点击屏幕上的哪个像素坐标来完成下棋动作。
接下来Codex自动进入测试,然后直接识别到了Bug:“人类走一步,电脑对手会走两步”。这是整个演示中最让人惊艳的地方,因为Codex没有参考任何的错误文档,而是完全通过视觉观察和游戏规则的逻辑推理,判断出了应用在行为表现上的Bug。
某种程度上,这说明Codex已经具备一定的自主决策和“拟人”推理能力,在确定问题后,它开始着手修复井字棋程序,然后重新编译运行程序并确认Bug已经修复。而在另一个视频里,Codex还利用代码辅助插件,在没有明确文件路径提示的情况下,自主探索本地的前端项目,并且给出了改动范围最小的代码修改方案。
可以说,OpenAI通过简单的两个案例,直观展示了Codex从前端到后端的完整工作流程能力。而且这一切都是通过对图形界面的视觉识别完成的,说明其已经具备几乎涵盖所有开发环境的全流程闭环开发能力。
说实话,这真的有点可怕了。如果说以前用Codex开发应用,你还要懂一点编程知识去解决API接入等问题,那么现在可以直接跳过这些流程,让Codex像“真人”一样操作电脑并生成你想要的程序。
不只是“生产者”,更是“协作者”
另一视频则展示了Codex在多模态层面的执行能力。在这个视频中,用户要求Codex为网页的主视觉区生成一张图片,这个要求里甚至没有具体的图片风格提示词。
那么Codex是怎么做的呢?它没有直接生成一张不相关的图片,而是首先读取了本地项目文件,然后结合图形界面读取的信息,确定了网页的主题基调是“费城深夜快餐”,并以此为基准生成了一张“汉堡+薯条+深夜灯光”的图片。
而且Codex还进一步分析了“主视觉区”的排版需求。为了不遮挡左侧的文案文字,生成的图片需要在左侧留出足够的空余,并且视觉重心要偏向右侧。仅这一项就是以前的AI难以做到的,因为大多数辅助开发工具都还在“纯文本代码生成”阶段,不仅无法理解网页中的“视觉元素”,甚至连图片生成和路径引入都要用户手动指定。
而在确定图片符合要求后,Codex自动执行指令将生成的图片移动到本地的项目文件夹中,并着手修改HTML文件,用真实的图片标签及本地路径替换了原有的占位符;同时顺手微调了CSS样式,确保图片能够完美适配网页的大小,最后还刷新了内置浏览器的网页,展示最终的网页效果。
OpenAI还展示了Codex是如何完全自主搭建一个网页的。在接收到用户的“乐高追踪网页应用”开发需求后,Codex调用开发软件完成代码编写,并自动在本地启动了开发服务器,在Codex自带的浏览器面板上加载了页面。
随后,用户可以将自己的任意需求直接告诉Codex,它会根据图形识别等获取的数据,调整网页的对应元素。比如在视频中,用户只是在对应编辑框给出了“缩小字体”的需求,Codex就自动完成了字体缩小、重新排版等一系列步骤,真正做到了“所见即所得”。
对于网页开发者来说,Codex的身份其实已经发生了转变。以前大家更多将其视作debug和网页框架搭建的“代码生产者”,最终的整合还是需要人类插手。
现在,它已经变成了你的“协作者”,你可以将更多的工作交给它。即使这涉及到具体的视觉元素修改和UI微调——以前AI可能难以准确理解你的意图,现在却不同了,因为它也能“看”到网页。
专属私人助理上线
在最后两个视频的演示里,OpenAI则是打算让Codex变成你的“私人助理”。视频中用户仅用一句话,就让Codex同时检索了Slack、Gmail、Google Calendar和Notion等四个截然不同的SaaS平台。
接着,Codex基于其语义理解能力,自主分析各平台的通知与信息,并根据优先级进行排序,将信息分类为“急需处理”和“可以暂缓”;同时根据信息的具体内容,提醒用户某些信息虽然看起来只是日常汇报,但是涉及到需要审批的事项,需要额外留意。
在总结并分类完信息后,用户又下达了新的指令“持续留意并通知我”。Codex直接建立了一个名为“Teammate - Hourly”的后台任务,并且自动设定该后台任务的具体运行规则:每小时检查一次各个SaaS平台,仅在有实质性信息增加(或无法获取最新信息)时提醒用户。
这个功能实际上也是之前OpenClaw爆火的原因——全自动的挂机“员工”。只需要下达指令,Codex就会在后台持续监控和执行相关任务,并不需要用户去主动操作,从而将AI从“被动响应”变成了“主动协助”。
而且,Codex现在的自动化操作可以在同一线程中运行,只需要打开对应聊天框,就能让AI重复或继续执行之前的任务,并不需要你重新给它安排一遍工作。所以,别看视频演示简单就不当回事,实际上只要给的指令足够详细,Codex也能像OpenClaw那样执行复杂的自动化工作流程。
视频演示中还展示了Codex在监控到新的邮件后,直接给出了邮件内容的概括,并询问用户是否需要帮忙草拟回复,这也是其根据用户的不同任务要求自行推理和设定的。
而在最后一个视频中,Codex则是根据用户的要求,通过插件访问企业的内部知识库并找到对应的产品报告,然后生成了一份面向高管的简报。在整个过程中,用户都只是给出了产品的名称,以及需要Codex做的事情,并没有提及产品报告保存在什么地方、如何查找。
全自动寻址、快速检索大量不同的文档和图片、提炼关键信息并生成文档。用户仅需一句话,Codex就自主分拆和执行了多个步骤;而且它并不需要企业给出私有API接口,仅通过用户已有的权限去调用文档,最大程度地降低了企业的数据外泄等风险。
当然,Codex如今也拥有了直接创建对应文档的能力。在视频中,Codex直接将网页端GitHub项目的最近Issue按主题整理出电子表格,然后转成Excel表格文件输出。结合此前提到的能力,实际上你可以将其当做一个高效的“数据收集员”,从私有库到公有数据,都可以让Codex收集并汇总成对应的文档,然后在其他工作中直接调用。
目前,Codex已经集成了九十多个主流办公及开发插件,用户可以在聊天框中随意调用,这还能说啥呢,干就完事了。
为什么是Mac?
说实话,OpenAI的最新版Codex要比OpenClaw更适合大多数用户。因为其并不需要用户提供系统底层权限,以让渡安全性和隐私性来换取便利性,而是借助macOS完善的辅助功能API和底层沙箱控制,实现稳定且安全的运行。这是目前Windows端做不到的(权限管理复杂且API混乱)。
而且,Codex明显针对Apple的官方开发工具做了深度整合。不仅可以直接读取Xcode的项目结构,还能直接搞定Swift软件包依赖以及模拟器状态等设置,同时自动调用Apple官方的开发文档和API规范,进行实时纠错(这对于苹果开发者来说至关重要)。
另外还有个非常关键的因素——Apple生态。很多人在讨论AI Agent的时候,都会忽略硬件生态的影响。试想一下,如果你在Windows上让AI执行一个任务时,忘记打开远程桌面程序,那么基本上就得走到电脑前进行操作;而Mac与iPhone、iPad的协同生态,让用户可以在移动设备上轻松查看Codex的工作成果,并且轻松下达新的指令。
当你安排Codex在家里干活,自己跑出去快活时,原生的远程管理功能体验无疑比第三方工具更好(不过Apple Remote Desktop是真的贵)。
总而言之,Mac版Codex的发布,基本上标志着这个AI工具正式跨越了“被动助手”的阶段,开始成为直接接管系统桌面的“全能智能体(Agent)”。
它不再是一个需要你绞尽脑汁去解决API接口和各种使用问题的工具,而是一个能看懂屏幕、能自主操作不同软件、甚至能替你统筹安排跨平台工作的“赛博同事”(突然想到,Codex能帮我通关赛博朋克2077吗?)。
反正现在压力给到macOS的老对手微软了,Windows到底什么时候能上线同样的功能?Copilot折腾了一两年都还是那个样子,属实对不起微软砸的这么多资源。