回看2023-2025：智能体技术是如何“长”出来的？

意见领袖丨国民财富发展研究合作平台

国研平台近日举办“智能体技术范式跃迁：技术突破、资本变局与金融新基建”专题研讨会，阿里云新金融副总经理郑淼在会上作专题发言。郑淼认为，智能体技术的发展，本质上是基于大模型使用方式的持续演进。从2023年的对话形态，到2024年的工作流形态，再到2025年以来的智能体形态，每一次跃迁都意味着模型自主能力的增强。通用智能体的核心变革在于赋予模型反思、感知、规划与行动等自主能力，其发展依赖于模型能力的快速提升与工程框架的完善。在金融领域，通用智能体的构建需聚焦工具智能体、个性化记忆、自进化能力、安全合规及企业级能力等关键技术。未来，金融机构将更多采用混合云架构，以算力、模型、数据与生态能力的整合，实现“更好用”的目标，让智能体真正融入日常工作。

一、从对话到自主：智能体开发范式的三次跃迁

智能体技术的发展历程，本质上是对大模型使用方式不断深化的过程。这一演进大致可分为三个阶段。

第一阶段（2023年）：对话形态。以ChatBot为代表的对话系统成为主流应用，用户通过自然语言与大模型交互，完成问答、生成等基础任务。

第二阶段（2024年）：工作流形态。金融机构开始广泛采用工作流（Workflow）模式。业务部门与科技团队协同梳理业务流程，通过低代码平台实现可视化编排，将AI能力嵌入具体业务环节，推动了AI在金融场景中的规模化落地。

第三阶段（2025年至今）：智能体形态。随着模型能力的进一步提升，行业开始尝试将传统工作流中的部分决策权交由模型自主完成。例如，在与某头部金融机构的交流中，曾有观点提出：一位拥有十五年经验的客户经理，其工作方式是否就是最优解？为何不让大模型尝试创造一种可能更优的工作模式？这一思考正是智能体（Agent）概念的雏形——在保留业务团队梳理的工作流之外，赋予模型一定的自主智能。

近期OpenClaw的火热，进一步拓展了大模型应用的边界。过去三年，大模型的使用主要局限于Web界面、手机APP或API调用，极少有应用能够整合本地桌面端资源。OpenClaw的亮点在于，它通过AI接管了本地文件与桌面环境，尽管其对模型能力的依赖并不高，更多是在模型尚未足够强大的背景下，尝试覆盖桌面本地化场景。而模型本身也在快速演进，例如ChatGPT 5.4版本已开始支持本地PC能力调用，意味着OpenClaw的许多能力正逐步被大模型自身所集成。

由此可见，Agent与大模型始终处于相互促进的迭代关系中：当模型智能不足时，Agent作为补充；当模型能力提升后，又会替代部分Agent的功能。

二、自主性：通用智能体的核心变革

对业外人士而言，OpenClaw是一个热门话题；而对业内人士来说，更值得关注的是应用架构正逐步演进至通用智能体体系。通用智能体与传统的智能体之间，核心区别在于赋予了模型更多自主能力，包括反思、感知、规划与行动。

这些能力原本属于人类：当人面对任何一个陌生问题时，会自然形成一个完整的闭环，感知当前有哪些工具可以使用，规划如何合理使用这些工具，确定规划后付诸行动，行动过程中发现问题后再进行反思，并在下一次调用时选择更优的工具。例如在投研场景中，规划完成后，需要判断到底是调用恒生聚源的数据，还是大智慧的数据，抑或是万得的数据。这一系列过程，正是通用智能体试图基于模型能力去实现的。

三、通用智能体的两大驱动要素

（一）模型快速发展

通用智能体的发展依赖于基础要素的支撑。首先，模型能力是根本前提。虽然可以用Agent来弥补模型能力的不足，但当模型本身能力不足时，无论Agent如何补足都难以达到理想效果。自去年下半年以来，通用智能体的快速发展与基础模型能力的持续迭代密不可分。国外已有公司将其长程能力提升至可处理4至5小时复杂任务的水平，这一时长已接近传统人类处理同类工作的时间。模型能力的实质性提高，是通用智能体演进的最基础一步。

（二）Agent Harness工程框架

在此基础上，通用智能体还需要构建一系列关键框架。智能体要想表现出色，需要一个强大的“大脑”来处理长程任务。若目标是打造真正像人一样的通用智能体，记忆管理便成为至关重要的一环，这其中既包括上下文管理，也涉及更为复杂的记忆管理。

所谓记忆管理，是指智能体能够记住用户的历史信息，而不需要用户每次重新说明过往交互内容。然而，这一能力在工程实现上并不容易。用户与智能体的对话往往非常频繁，日积月累的信息量十分庞大。当用户时隔数月重新使用时，智能体能否在短时间内有效召回此前积累的大量知识，是一个极具挑战的问题。

表面上看，记忆是一个简单的概念，但在工程实现中却非常复杂，既要保证检索的高效性，又要让智能体的行为足够拟人化。这种在短时间内召回相关信息的能力，正是通用智能体在记忆管理方面需要攻克的核心难题。

四、通用智能体的产品形态与技术挑战

当前通用智能体的产品形态主要包括三类：编程工具（如Claude Code）、语言驱动的桌面助手（如Cowork），以及更为技术化的OpenClaw。不同工具适配不同场景：Cowork更适合处理Excel、文本、图片等常见办公任务，而OpenClaw则更偏技术应用。

在代码开发方面，智能体工具已显著提升开发效率。过去，架构师需具备较强编码能力，如今借助智能体，只需明确方案设计与需求，编码工作可由智能体完成，极大缩短了原型开发周期。

从技术架构来看，通用智能体面临几个关键挑战：

一是记忆与上下文管理：如何高效压缩、存储、检索并总结长期交互内容，是实现拟人化体验的核心。

二是规划与工具调用：复杂场景下智能体需决定调用何种工具。尤其在金融领域，业务流程长且复杂，完全由模型自主规划仍面临可解释性与监管要求，当前实践中通常采用“人类规划+模型规划”的混合方式。

三是私有化知识与Skill管理：以投研场景为例，许多投资经理将个人经验与分析方法视为核心竞争力，不愿将其共享给公司或科技团队。这类私有化Skill正是OpenClaw等工具的重要应用场景。阿里云在智能体平台的建设上，更注重提供平台能力，支持用户构建与管理自身Skill，而非直接提供标准化Skill。

五、金融通用智能体的关键技术

金融通用智能体的构建，涉及若干关键技术，主要包括工具智能体、记忆管理、自进化能力、安全合规以及企业级能力。

（一）工具智能体：提升健壮性与覆盖率

以阿里云的点金模型为例，可以直观展示智能体在执行与反思过程中的核心能力。用户提出如“我有30万块钱要放三年，自己能接受的浮亏大概在20%左右，你帮我做一个配置，同时测算一下大概能够赚多少钱”的需求后，智能体需要完成一系列复杂操作。

首先是工具调用。由于通用基模中并不包含实时行情数据，智能体需要识别并调用多种工具，包括美股行情、国内A股行情等，并掌握正确的调用方式。

其次是在工具使用过程中，若某些信息未能找到，智能体并不会直接退出或报错，而是自主尝试不同的路径。这正是通用智能体与传统流程架构的核心区别。在传统工作流中，一旦预设路径走不通，系统往往只能退出或报错；而在通用智能体架构中，智能体会像人一样，一条路走不通时尝试另一条路，一个工具调用失败后尝试下一个工具，甚至当所有工具都无法满足需求时，尝试自己编写工具。这种能力得益于通用模型对代码能力的集成。在某些复杂环节，智能体也会在遇到分歧时主动请求用户输入，明确下一步方向后再继续执行。

（二）个性化记忆：实现“专属风格”的AI助理

在个性化记忆方面，团队已经开展了大量工作。这是智能体构建中较具挑战性的部分，因为涉及的内容繁杂，对时间和资源的要求也较高。记忆管理是实现专属风格AI助理的核心支撑。

（三）自进化能力：“吾日三省吾身”

自进化能力是通用智能体向更高阶发展的重要能力。所谓自进化，是指在智能体框架中集成观测、评测与优化三个模块。

以商业银行的信贷场景为例，智能体在执行过程中会通过专门模块感测执行结果的好坏，这需要借助评测机制——即建立一个较为完善的评测集。基于评测结果，智能体可以对具体案例进行修正，并持续优化。观测、评测、优化三者的协同运作，使得智能体可以在较少人工干预的情况下自我演进。

当前许多金融机构项目中，仍依赖业务专家收集案例并人工判断问题出在模型、智能体还是提示词。未来如果能够将观测、评测、优化三个模块完全交由模型自身完成，由三个不同角色的智能体分别承担相应任务，便真正实现了通用智能体的自进化能力。

（四）金融级安全合规：Fin-Guard Agent

金融场景对安全合规有严格要求。为此，我们训练了多种Fin-Guard安全智能体。其作用在于，在输出环节的最后一刻，由安全智能体进行过滤，确保输出内容符合各项安全规范与合规要求。

具体而言，Fin-Guard Agent在以下层面发挥作用：一是内容安全，防止生成违法违规或敏感信息；二是业务合规，确保输出符合金融监管要求；三是隐私保护，避免泄露用户个人信息或机构敏感数据。通过多层次的过滤机制，保障金融通用智能体的安全可靠运行。

（五）企业级能力：从个人工具到规模化部署

OpenClaw虽然是当前热门工具，但其定位更偏向个人极客。从个人工具向企业级生产环境演进，面临诸多挑战。

例如，在与某保险公司的交流中，该公司拥有5万名代理人，即便以阿里云云桌面最低成本计算（每年约200至300元），仅基础资源的投入就已不菲，而这还只是将OpenClaw运行起来的基础成本。更为昂贵的部分在于后端的Token调用。在实际执行过程中，每位用户每天消耗100万Token并不罕见。

因此，从个人工具走向企业级应用，必须解决以下核心问题：一是资源管理，实现算力与成本的精细化控制；二是多租户能力，支持不同部门、不同用户之间的隔离与协同；三是运维体系，确保大规模部署下的稳定性与可观测性。

未来金融机构的通用智能体部署，将更多采用混合云架构。通过云上充足的算力、更强大的模型、实时全面的数据，以及公开的MCP与Skill能力，最终实现一个关键目标——“更好用”，即企业员工真正愿意在日常工作中使用。

(本文作者介绍：为研究推动中国金融业高质量发展创设的一个跨行业交流合作平台)