意见领袖 正文

回看2023-2025:智能体技术是如何“长”出来的?

意见领袖丨国民财富发展研究合作平台

国研平台近日举办“智能体技术范式跃迁:技术突破、资本变局与金融新基建”专题研讨会,阿里云新金融副总经理郑淼在会上作专题发言。郑淼认为,智能体技术的发展,本质上是基于大模型使用方式的持续演进。从2023年的对话形态,到2024年的工作流形态,再到2025年以来的智能体形态,每一次跃迁都意味着模型自主能力的增强。通用智能体的核心变革在于赋予模型反思、感知、规划与行动等自主能力,其发展依赖于模型能力的快速提升与工程框架的完善。在金融领域,通用智能体的构建需聚焦工具智能体、个性化记忆、自进化能力、安全合规及企业级能力等关键技术。未来,金融机构将更多采用混合云架构,以算力、模型、数据与生态能力的整合,实现“更好用”的目标,让智能体真正融入日常工作。

一、从对话到自主:智能体开发范式的三次跃迁

智能体技术的发展历程,本质上是对大模型使用方式不断深化的过程。这一演进大致可分为三个阶段。

第一阶段(2023年):对话形态。以ChatBot为代表的对话系统成为主流应用,用户通过自然语言与大模型交互,完成问答、生成等基础任务。

第二阶段(2024年):工作流形态。金融机构开始广泛采用工作流(Workflow)模式。业务部门与科技团队协同梳理业务流程,通过低代码平台实现可视化编排,将AI能力嵌入具体业务环节,推动了AI在金融场景中的规模化落地。

第三阶段(2025年至今):智能体形态。随着模型能力的进一步提升,行业开始尝试将传统工作流中的部分决策权交由模型自主完成。例如,在与某头部金融机构的交流中,曾有观点提出:一位拥有十五年经验的客户经理,其工作方式是否就是最优解?为何不让大模型尝试创造一种可能更优的工作模式?这一思考正是智能体(Agent)概念的雏形——在保留业务团队梳理的工作流之外,赋予模型一定的自主智能。

近期OpenClaw的火热,进一步拓展了大模型应用的边界。过去三年,大模型的使用主要局限于Web界面、手机APP或API调用,极少有应用能够整合本地桌面端资源。OpenClaw的亮点在于,它通过AI接管了本地文件与桌面环境,尽管其对模型能力的依赖并不高,更多是在模型尚未足够强大的背景下,尝试覆盖桌面本地化场景。而模型本身也在快速演进,例如ChatGPT 5.4版本已开始支持本地PC能力调用,意味着OpenClaw的许多能力正逐步被大模型自身所集成。

由此可见,Agent与大模型始终处于相互促进的迭代关系中:当模型智能不足时,Agent作为补充;当模型能力提升后,又会替代部分Agent的功能。

二、自主性:通用智能体的核心变革

对业外人士而言,OpenClaw是一个热门话题;而对业内人士来说,更值得关注的是应用架构正逐步演进至通用智能体体系。通用智能体与传统的智能体之间,核心区别在于赋予了模型更多自主能力,包括反思、感知、规划与行动。

这些能力原本属于人类:当人面对任何一个陌生问题时,会自然形成一个完整的闭环,感知当前有哪些工具可以使用,规划如何合理使用这些工具,确定规划后付诸行动,行动过程中发现问题后再进行反思,并在下一次调用时选择更优的工具。例如在投研场景中,规划完成后,需要判断到底是调用恒生聚源的数据,还是大智慧的数据,抑或是万得的数据。这一系列过程,正是通用智能体试图基于模型能力去实现的。

三、通用智能体的两大驱动要素

(一)模型快速发展

通用智能体的发展依赖于基础要素的支撑。首先,模型能力是根本前提。虽然可以用Agent来弥补模型能力的不足,但当模型本身能力不足时,无论Agent如何补足都难以达到理想效果。自去年下半年以来,通用智能体的快速发展与基础模型能力的持续迭代密不可分。国外已有公司将其长程能力提升至可处理4至5小时复杂任务的水平,这一时长已接近传统人类处理同类工作的时间。模型能力的实质性提高,是通用智能体演进的最基础一步。

(二)Agent Harness工程框架

在此基础上,通用智能体还需要构建一系列关键框架。智能体要想表现出色,需要一个强大的“大脑”来处理长程任务。若目标是打造真正像人一样的通用智能体,记忆管理便成为至关重要的一环,这其中既包括上下文管理,也涉及更为复杂的记忆管理。

所谓记忆管理,是指智能体能够记住用户的历史信息,而不需要用户每次重新说明过往交互内容。然而,这一能力在工程实现上并不容易。用户与智能体的对话往往非常频繁,日积月累的信息量十分庞大。当用户时隔数月重新使用时,智能体能否在短时间内有效召回此前积累的大量知识,是一个极具挑战的问题。

表面上看,记忆是一个简单的概念,但在工程实现中却非常复杂,既要保证检索的高效性,又要让智能体的行为足够拟人化。这种在短时间内召回相关信息的能力,正是通用智能体在记忆管理方面需要攻克的核心难题。

四、通用智能体的产品形态与技术挑战

当前通用智能体的产品形态主要包括三类:编程工具(如Claude Code)、语言驱动的桌面助手(如Cowork),以及更为技术化的OpenClaw。不同工具适配不同场景:Cowork更适合处理Excel、文本、图片等常见办公任务,而OpenClaw则更偏技术应用。

在代码开发方面,智能体工具已显著提升开发效率。过去,架构师需具备较强编码能力,如今借助智能体,只需明确方案设计与需求,编码工作可由智能体完成,极大缩短了原型开发周期。

从技术架构来看,通用智能体面临几个关键挑战:

一是记忆与上下文管理:如何高效压缩、存储、检索并总结长期交互内容,是实现拟人化体验的核心。

二是规划与工具调用:复杂场景下智能体需决定调用何种工具。尤其在金融领域,业务流程长且复杂,完全由模型自主规划仍面临可解释性与监管要求,当前实践中通常采用“人类规划+模型规划”的混合方式。

三是私有化知识与Skill管理:以投研场景为例,许多投资经理将个人经验与分析方法视为核心竞争力,不愿将其共享给公司或科技团队。这类私有化Skill正是OpenClaw等工具的重要应用场景。阿里云在智能体平台的建设上,更注重提供平台能力,支持用户构建与管理自身Skill,而非直接提供标准化Skill。

五、金融通用智能体的关键技术

金融通用智能体的构建,涉及若干关键技术,主要包括工具智能体、记忆管理、自进化能力、安全合规以及企业级能力。

(一)工具智能体:提升健壮性与覆盖率

以阿里云的点金模型为例,可以直观展示智能体在执行与反思过程中的核心能力。用户提出如“我有30万块钱要放三年,自己能接受的浮亏大概在20%左右,你帮我做一个配置,同时测算一下大概能够赚多少钱”的需求后,智能体需要完成一系列复杂操作。

首先是工具调用。由于通用基模中并不包含实时行情数据,智能体需要识别并调用多种工具,包括美股行情、国内A股行情等,并掌握正确的调用方式。

其次是在工具使用过程中,若某些信息未能找到,智能体并不会直接退出或报错,而是自主尝试不同的路径。这正是通用智能体与传统流程架构的核心区别。在传统工作流中,一旦预设路径走不通,系统往往只能退出或报错;而在通用智能体架构中,智能体会像人一样,一条路走不通时尝试另一条路,一个工具调用失败后尝试下一个工具,甚至当所有工具都无法满足需求时,尝试自己编写工具。这种能力得益于通用模型对代码能力的集成。在某些复杂环节,智能体也会在遇到分歧时主动请求用户输入,明确下一步方向后再继续执行。

(二)个性化记忆:实现“专属风格”的AI助理

在个性化记忆方面,团队已经开展了大量工作。这是智能体构建中较具挑战性的部分,因为涉及的内容繁杂,对时间和资源的要求也较高。记忆管理是实现专属风格AI助理的核心支撑。

(三)自进化能力:“吾日三省吾身”

自进化能力是通用智能体向更高阶发展的重要能力。所谓自进化,是指在智能体框架中集成观测、评测与优化三个模块。

以商业银行的信贷场景为例,智能体在执行过程中会通过专门模块感测执行结果的好坏,这需要借助评测机制——即建立一个较为完善的评测集。基于评测结果,智能体可以对具体案例进行修正,并持续优化。观测、评测、优化三者的协同运作,使得智能体可以在较少人工干预的情况下自我演进。

当前许多金融机构项目中,仍依赖业务专家收集案例并人工判断问题出在模型、智能体还是提示词。未来如果能够将观测、评测、优化三个模块完全交由模型自身完成,由三个不同角色的智能体分别承担相应任务,便真正实现了通用智能体的自进化能力。

(四)金融级安全合规:Fin-Guard Agent

金融场景对安全合规有严格要求。为此,我们训练了多种Fin-Guard安全智能体。其作用在于,在输出环节的最后一刻,由安全智能体进行过滤,确保输出内容符合各项安全规范与合规要求。

具体而言,Fin-Guard Agent在以下层面发挥作用:一是内容安全,防止生成违法违规或敏感信息;二是业务合规,确保输出符合金融监管要求;三是隐私保护,避免泄露用户个人信息或机构敏感数据。通过多层次的过滤机制,保障金融通用智能体的安全可靠运行。

(五)企业级能力:从个人工具到规模化部署

OpenClaw虽然是当前热门工具,但其定位更偏向个人极客。从个人工具向企业级生产环境演进,面临诸多挑战。

例如,在与某保险公司的交流中,该公司拥有5万名代理人,即便以阿里云云桌面最低成本计算(每年约200至300元),仅基础资源的投入就已不菲,而这还只是将OpenClaw运行起来的基础成本。更为昂贵的部分在于后端的Token调用。在实际执行过程中,每位用户每天消耗100万Token并不罕见。

因此,从个人工具走向企业级应用,必须解决以下核心问题:一是资源管理,实现算力与成本的精细化控制;二是多租户能力,支持不同部门、不同用户之间的隔离与协同;三是运维体系,确保大规模部署下的稳定性与可观测性。

未来金融机构的通用智能体部署,将更多采用混合云架构。通过云上充足的算力、更强大的模型、实时全面的数据,以及公开的MCP与Skill能力,最终实现一个关键目标——“更好用”,即企业员工真正愿意在日常工作中使用。

(本文作者介绍:为研究推动中国金融业高质量发展创设的一个跨行业交流合作平台)

分享文章到
说说你的看法...
A-
A+