明略科技吴明辉:企业级Agent的“精度陷阱”与人机协同重构之路
InfoQ
作者|吴明辉
编辑|李忠良
策划|AICon 全球人工智能开发与应用大会
2025 年 12 月 19 日,明略科技创始人吴明辉,在 AICon 全球人工智能开发与应用大会上,分享了《可信 Agent 的规模化之路》。2020 年,他带着千人团队押注智能体,试图在企业微信生态里打造 AI 助理,结果因技术供给超前于市场需求,走过了一段曲折的探索期。四年后,他选择了一条更务实的路:放弃“全自动”幻想,瞄准 GUI 自动化,用 72B 模型在 BUA、CUA 榜单达到了 SOTA 水平。
在这场演讲中,他指出一个真相:99% 的单步准确率,在连续 100 步的任务链路中,整体可靠性会急剧崩塌——这是企业级 Agent 最隐蔽也最致命的“精度陷阱”。缺乏 API 开放生态的中国企业环境,让 GUI 自动化成为必须啃下的“硬骨头”,但即便是顶尖的通用模型,在开放场景下也只有五六十分。
出路何在?吴明辉给出的答案不是等待模型进化,而是重新设计人机分工:通过 Human-in-the-Loop 把人类的经验判断嵌入规划路径,用“注意力机制”重塑交互;更重要的是,跳出替代“任务”的狭隘逻辑,去重构“职业”本身——让 AI 执行确定的 Task,让人定义目标、校验结果、审计逻辑。
以下是演讲实录(经 InfoQ 进行不改变原意的编辑整理)
1
Agent 的理想与骨感
今年以来,Agent 发展势头迅猛,但行业内急待回答一个核心命题:它究竟是提升个人效率的辅助工具,还是能够深度融入企业核心流程、创造规模化商业价值的生产力工具?
我们可将企业任务划分为简单与复杂、一次性探索与高频重复等多个维度。明略科技旗下拥有秒针系统,积累了大量营销相关场景,其中不乏探索性任务,例如编导探索新创意,便属于一次性探索类任务。但对于广告公司而言,若单日需产出 1000 个优质视频,其复杂度则截然不同——如何确保这 1000 个视频的质量均达标,人机交互的设计又如何才能让人放心地将工作交付给 AI,甚至直接推送至生产线?
正如 Anthropic 团队探讨 Claude Code 在生产环境中的应用一样,企业级领域普遍面临这一核心挑战。对明略科技而言,其核心研究方向正是数据分析挖掘及广告营销全链路的业务场景,而各行各业的从业者,也同样面临这一命题:如何优化人机协同的流程设计,在保障高质量标准的同时,实现海量规模的批量生产。
在座各位,无论身处哪家企业、哪个岗位,都面临着一个共同命题:如何将高质量任务、海量批量生产与人机协同的工作流程进行高效融合?这一命题具有较高难度,因为企业级 AI 落地与个人使用之间,存在着显著差异。
近期热门播客引发了关于 AGI 实现周期的讨论,部分观点认为,这一过程可能需要十年乃至更久。事实上,AGI 的定义并非一成不变,而是随着时代演进不断迭代完善。
我自 2004 年起在北京大学攻读硕士学位,亲历了上一个人工智能时代;2019 年,我重回校园深耕大模型相关博士研究,全程见证了大数据与 AGI 定义的持续迭代更新。
衡量当前智能体发展水平的关键指标,在于其能否连续、稳定地执行复杂任务。这并非指简单的预设工作流,而是观察具备自主任务分解能力的智能体,在长推理过程中能够保持多长时间的稳定性。目前,硅谷顶尖的 Agent 企业虽已实现连续 100 步操作 99% 的准确率,但这一表现是否足以定义一个“可信”的智能体,仍需审慎考量。客观而言,在诸多严苛的业务场景中,现有智能体的表现仍难以达到实际应用标准。
无人驾驶的落地困境,直观印证了这一核心矛盾。起步阶段将准确率提升至 90% 相对容易,也能快速获得融资支持,但从 90% 提升至 99% 乃至 99.9%,却需要耗费数年的深耕细作。即便准确率达到 99.9%,无人驾驶依然难以实现规模化上路。这本质上是一个数学累积问题:若单步准确率为 99%,在连续执行 100 步任务后,误差会不断叠加,整体可靠性将大幅下降。在企业级应用场景中,竞争的核心就在于谁能让智能体在长链路任务中走得更远、误差控制得更小。若无法解决长链路下的确定性问题,AI Agent 便难以在企业核心业务中创造真正的商业价值。
明略科技上市时,提出了“Agentic AI 第一股”的定位。不少朋友质疑,我此举是否在蹭热点以提振股价,但我始终认为,若单纯为了追逐概念热度,直接打出“大模型第一股”的旗号,显然对投资者更具吸引力——毕竟,多数人并未真正理解 Agentic AI 的深层内涵。我坚持这一表述,核心原因在于,明略科技早在 2020 年便已启动智能体相关研发工作,这并非一时跟风,而是长期布局的结果。
右侧展示的是我们早年研发的 EIP 产品,这也正是我们后续收购微伴的核心原因——当时我们的核心布局,正是 SCRM 赛道。
SCRM 即社交化客户关系管理系统,相信不少人都有所了解,它在企业微信生态中应用尤为广泛。当个人用户通过微信添加企业微信好友后,企业微信端会呈现侧边栏界面,这一场景天然适合作为 AI 助理的搭载入口。
对企业的销售、客服人员而言,在与客户沟通过程中,企业微信的会话存档功能可通过 API 将全量聊天记录同步给 AI Agent。系统基于对话数据,能够实时为员工提供交互辅助:例如客户发送名片时,自动将信息录入 CRM 系统;客户提出相关需求时,实时调取企业内部知识库,匹配并推送对应文档。
我们当时推出的产品极具前瞻性。团队于 2020 年启动产品研发,并在同年年底完成对微伴的收购。彼时,微伴已是企业微信生态中装机量最高的社交 CRM 产品。我们判断,若能打通全量数据,便可基于这一底座为用户提供成熟的 AI 助理服务。
但在实际推进过程中,我们发现这项工作的复杂度远超预期。它并非简单依托 Salesforce 等 CRM 系统,叠加一个智能助手 Copilot 即可完成落地。
这项工作需要解决两大核心问题:一是必须搭建数据中台,打通企业内外部各类数据源,包括网盘数据、CRM 存量数据、员工日历等多个系统;二是当时 GPT 类大模型尚未普及,行业仍以 Bert 模型为主开展 NLP 研发,即便是名片识别这类单一任务,也需要单独开发专项能力并进行独立模型调优。
尽管我们当时已提出类似如今 Claude Code 中的“Skill”概念,但由于每个技能都需要独立训练与大量测试,研发成本极高。那两年间,公司投入了巨额资金,组建千人规模的工程师团队同步开展基础模型、数据中台及 CRM 应用研发,这一尝试也一度给公司带来了较大的经营压力。
我最初认为,中国之所以缺少类似 Salesforce 的企业,核心原因在于用户习惯使用微信而非邮件,导致 AI 难以获取有效数据;而企业微信的出现,恰好提供了整合销售与服务数据、打造企业级 AI 助理的机会。但受限于当时大模型技术尚未成熟,加之技术投入大、市场教育周期长,投入产出远未达预期,我们最终决定关闭该产品线,将资源聚焦到更具确定性的方向。这段经历,也让我们对智能体的落地节奏形成了更为清醒的判断。
2
可信智能体规模化落地的首要瓶颈
智谱的唐杰老师曾分享过一张结合 Sam Altman 对 AGI 五个阶段划分的示意图,其中最令我警醒的,是那条代表模型成熟度、呈下滑趋势的蓝色曲线。它揭示了一个残酷的现实:尽管 Level 1 的对话模型已超越人类平均水平,Level 2 的逻辑推理模型在数理化等领域也能达到优秀水准,但真正具备工具调用与路径规划能力的 Level 3 智能体模型,目前仍处于极不成熟的阶段。正如 Sam Altman 所言,现阶段的智能体技术,可能仅相当于 ChatGPT 早期 1.0 或 2.0 的水平。
回顾 2020 年,在 Level 1 模型尚未成熟之际,我们便试图攻克 Level 3 级别的任务,这显然是技术供给与业务需求之间的严重错位。尽管行业内存在类似摩尔定律的预期 ——Token 成本持续下降、模型可稳定执行的任务步数每七个月实现翻倍,但即便当前最顶尖的智能体,在封闭环境中也仅能以 99% 的准确率完成 100 步操作。这意味着,要让 AI Agent 在复杂多变的企业场景中真正发挥价值,仍有一段漫长且极具挑战的路要走。
那么,面对技术尚不成熟的现状,企业级智能体究竟该何去何从?在与 RPA 厂商影刀 CEO 十布的交流中,他将任务划分为 “归纳总结类(数据分析)” 与 “实际操作类(软件执行)” 两大范畴,这让我联想到数据库领域中 OLAP(联机分析处理)与 OLTP(联机事务处理)的差异。
正如早期云数据库多优先应用于分析型的 OLAP 场景,而对涉及原子操作、回滚及灾难恢复等关键任务型的 OLTP 场景持审慎态度一样,智能体在企业级的落地,也应遵循类似的演进逻辑。
因此,明略科技选择优先深耕数据挖掘与分析领域,这本质上更接近于 AI 界的 “OLAP 任务”,侧重于海量数据的归纳与洞察。然而,即便将目标收缩至分析层面,如何根除模型幻觉、提升结果可信度,依然是我们必须持续攻克的核心课题。
在此过程中,我们推出了自研大模型产品 DeepMiner。它不仅是支持多智能体协作的灵活框架,允许开发者自由灵活地接入新智能体,更核心的竞争力在于其内置的多款自研智能体模型:一是专注于 GUI 自动化操作、被我们称为“灵巧手”的模型;二是负责全局任务规划、并能高效处理 Memory 管理问题的 Cito 模型。依托这一体系,我们目前在数据分析与数据挖掘垂直领域,已实现相对成熟的业务落地。
Mano 本质上并非 Agent,而是一款模型。从技术趋势来看,这类模型近期愈发热门,字节推出的“豆包手机”便是典型代表,其背后对应的是一种新范式——Agentic Model。具体而言,它属于 MUA(Mobile Use Agent)方向,核心是让 AI 像人类一样操作手机。
除这一赛道外,还存在另外两个重要方向:一是 CUA(Computer Use Agent),即让 AI 操作电脑;二是 BUA(Broader Use Agent),即更广义的跨环境操作。这两个方向均有对应的评测体系,例如 CUA 对应 OSWorld,BUA 对应 Minde2Web,目前我们在这两个 Benchmark 上,均取得了 specialized 模型第一的成绩。
进一步来看,BUA 方向难度最高,因其要求模型能在包含各类软件的复杂桌面环境中完成操作。在该领域,我们目前在 specialized 模型榜排名第一,总榜排名第二,仅次于 Anthropic 的 Claude 4.5,且双方分数差距极小。值得一提的是,我们仅使用 72B 规模的模型,便达到了接近对方的水平。
从战略层面,我们并未优先布局 MUA 方向。因为 MUA 更偏向 ToC 领域,本质上是移动互联网生态的竞争,大厂必然会入局。例如“豆包手机”的发布,已对行业产生明显影响,也引发了平台间的博弈与限制;海外市场也存在类似情况,ChatGPT、Perplexity AI 与 Amazon 之间,也出现了竞争乃至法律层面的摩擦。
相比之下,明略更聚焦 ToB 场景。因为企业核心工作绝大多数仍在电脑上开展,无论是工程师写代码,还是数据分析师做分析,本质上都依赖电脑环境。核心原因在于,电脑能提供更强的信息输入输出能力,而手机的屏幕与交互能力有限,无法支撑复杂任务。
这也决定了,在 ToB 场景中,CUA 和 BUA 的价值远高于 MUA,在中国市场这一特点更为突出。从基础设施来看,中美市场存在显著差异:美国很多系统提供完善的 API,企业可通过付费 API 完成自动化集成;而在中国,很多关键系统并未开放 API。
以广告行业为例,阿里、字节、小红书等平台的投放后台和数据平台,大多仅提供 GUI 界面,未开放 API。若企业希望实现投流管理与数据分析的自动化,无法通过传统接口方式完成。
这种情况下,唯一可行的路径便是让 AI 直接操作 GUI,即通过 CUA 或 BUA 完成全流程操作,但此举技术难度极高。以我们近期深耕的中国企业出海数据分析与挖掘赛道为例,企业出海过程中需高频操作电商平台后台及第三方分析工具,在常用的近百种软件中,约一半支持 MCP 等 API 接口,另一半则仅保留 GUI 界面。
针对这一现状,我们通过自主标注数据集、建立垂类基准 Benchmark 开展专项训练,类似在机场等封闭场景开展无人驾驶业务,通过高度垂直化的模型训练,力求将准确率提升至 99% 的工业级标准。但实际应用中,完全脱离人工干预仍不现实,我们通过设计严谨的人机协同逻辑,在关键环节仍需人类接管与闭环。
如图所示,明略在 2025 年 9 月与 10 月先后发布 Mano 模型 7B 与 72B 两个版本的技术报告,这在 GUI 自动化操作领域为全球首创。我们坚定认为,端到端的在线强化学习是该方向的必经路径。尽管这项技术在无人驾驶领域已相对成熟,但在 GUI 操作场景下落地难度更高,核心挑战在于环境构建:需要在不影响真实业务运行的前提下,模拟出复杂的第三方数据分析平台与各类网站环境,支撑模型与智能体在仿真场景中持续迭代进化。
通过对 SFT、离线强化学习及在线强化学习流程的深度优化,我们在智能体训练领域已取得显著进展。明略内部通过自动化机器人每日抓取并筛选可自动化的目标网站,并按实际场景分类处理:部分平台可直接在原生环境中操作,对高风险或受限类站点,则由团队自主搭建高度仿真的模拟环境(Mock)。智能体在这些定制化环境中通过持续迭代强化实现自我演进。这种深度技术投入,是我们在细分赛道保持领先于行业平均水平的关键。
近期行业内流传着两句极具前瞻性的判断:“模型即产品”“数据即模型”。这意味着未来科技企业的核心资产将从传统软件转向定制化垂直模型,而模型的核心壁垒则来自独有的数据集与行业基准。尽管当前模型训练仍存在一定门槛,但我们坚信,随着技术持续演进,模型训练的复杂度将大幅降低,未来甚至会像编写普通代码一样便捷。
在今年年初的工程师大会上,我已明确要求研发团队完成角色转型。除负责底层基础设施建设的人员外,传统应用层开发的空间将被大幅压缩。工程师的核心价值将全面转向数据工程:通过深度理解业务逻辑构建高质量数据集,建立严谨完备的评测体系,持续迭代公司的垂直领域模型。
3
用“注意力机制”重塑人机交互
在数据挖掘智能体的稳定性建设中,另一核心挑战,是对定量分析的严谨性保持足够敬畏。
当前市面上不少智能体已可通过联网搜索或基础工具生成简易分析报表,但明略科技的服务对象多为世界 500 强企业,我们出具的分析报告,直接影响客户每年数十亿级别的广告投放策略与下一代产品研发决策。在这类重大决策链路中,哪怕仅出现 1%—5% 的细微误差,都可能造成难以估量的损失。
为此,明略旗下秒针系统在行业内建立了极具公信力的标准:我们的认证签章,代表着对数据准确性的绝对承诺。这份行业信誉,必须依靠持续、高可靠、可验证的研究成果作为支撑;而在向智能体化转型的过程中,守护好这份长期积累的品牌信用,难度可想而知。
以 iPhone 17 销量趋势分析为例,首先就要面对一个现实问题:数据从何而来?一部分数据分散在阿里、京东等电商平台的后台数据工具中,另一部分则来自互联网公开场景,包括社交媒体讨论、用户反馈等,数据本身呈现分散且异构的特征。
若仅做粗粒度的定性分析,依靠普通 Agent 即可完成,例如汇总用户评价、提取情绪倾向等。
但一旦进入定量分析环节,比如按周追踪销量变化、计算同比与环比趋势,问题复杂度便会显著提升。
此时,知识图谱的价值便尤为关键。核心在于,系统能否对“iPhone 17”这一分析对象形成稳定、明确的定义。若缺乏严格的结构约束,模型对该概念的理解极易发生偏移:某一阶段可能仅涵盖 iPhone 17 Air、Pro、Max 等机型,后续处理中却可能逐步将手机壳、配件乃至相关商品纳入统计范围。
这并非典型的模型幻觉,而是缺少对分析对象边界的严格界定。在真实的数据分析与挖掘场景中,定量任务的核心,正是对研究对象与分析维度的精确定义。定性分析可以相对灵活,但一旦涉及企业内部 KPI 考核、Benchmark 对比与绩效评估,这类问题便至关重要。
这也是 Palantir 近期在美国市场再度受到高度关注的原因。众多大型企业逐渐认识到其产品的实际业务价值,核心在于 Palantir 长期专注于帮助企业构建本体(Ontology),而这一过程本质上就是知识图谱的搭建与落地。
从技术演进视角看,上一代数据技术体系并不会被大模型完全取代,而是与大模型深度融合,在数据分析与挖掘任务中实现更精准的落地。例如在实际应用中,仍可通过关键词、包含词、排除词搭建规则体系,即便在 Elasticsearch 等检索系统中建立索引,这类规则依然是保障定量分析严谨性的重要基础。
这一过程中的关键,在于关键词词包的构建方式。传统模式高度依赖人工经验,引入大模型后,则可借助模型能力自动生成、扩展与优化词包,提升构建效率与覆盖范围。因此,从企业系统演进方向来看,未来的记忆体系需要与知识图谱深度融合。
在任务分解与规划层面,同样存在类似核心问题。规划(Planning)本身是极为复杂的环节,如何保证每次生成的规划方案保持一致性,是介于 Agent 与 Workflow 之间的关键命题。该领域已有权威评测榜单,其中最具代表性的是 UC 伯克利推出的 Berkeley Function-Calling Benchmark。目前榜单前列主要为 Anthropic 系列模型与通义千问,后者表现始终稳定突出。我们也曾提交自研 32B 参数小模型参与评测,排名大致在第十位左右。
即便如此,函数调用在实际业务落地中仍面临巨大挑战。原因在于业务场景包含大量细分领域知识:以销量预测为例,市场上可用的数据分析工具可能多达上百个,相关数据源分散在多个系统中,且各系统均存在与销量相关的数据指标。如何让模型精准理解业务语境、选择合适工具并规划合理的调用流程,远比榜单评测复杂得多。
因此,在处理此类复杂企业级任务时,必须放弃完全自动化的理想化设想,坚定采用人机协同(Human-in-the-Loop)策略。在真实工业级生产环境中,人类专家需要深度介入模型的推理与规划流程,以此保障最终输出的专业性与决策可靠性。
明略在 DeepMiner 的设计中融入了一项创新功能:在集成大量 Sub-agent 与各类 Skills 的基础上,支持用户通过“@”指令主动激活特定组件。这一设计的核心思路,是借鉴并拓展了人类的注意力机制。
正如大模型通过 Attention 机制识别长文本中的关键 Token、激活特定参数,在多智能体协作的复杂任务拆解过程中,同样面临如何精准选择执行工具与任务承接方的决策难题。在大量细分业务场景中,一线人员的实操经验,往往比通用模型的自主判断更为可靠。
因此,我们通过这一交互设计,将人类经验与专业判断嵌入智能体的规划路径,有效提升人机协同的决策效率。目前,我也在持续探索更优的人机交互体验,进一步扩大人与系统间的信息吞吐量(I/O),实现更深层次的协同。
我时常和团队分享,我十分期待未来每个人都能创造更高的个人价值。以我们的运营人员为例,无论是数据分析师,还是负责客户广告投放操盘的同学,当下都仅依托一台电脑开展工作,个人产出天然存在天花板。而未来,是否有可能实现一人同时操控 10 台、甚至 100 台电脑?
我本科主修数学,我们系里发展最好的同学大多进入了量化交易领域。我见过不少交易员的工位都摆放着五六块屏幕,核心原因便是这些专业人员的信息处理能力极强、决策效率高,需要更高的 I/O 带宽来承载更大量的信息输入。
如何让未来职场中的“超级个体”具备更强的信息处理能力?当 I/O 带宽得到提升,既可以充分调动其自身知识储备,又能无缝衔接云端与端侧算力,这是一个值得持续探索的命题。更重要的是,在海量信息支撑下,让专业人员聚焦关键决策——调度特定子智能体、调用对应工具,这本质上就是人机协同下的任务规划。
因此,未来的 Planning 机制,尤其是在垂直细分场景中,不能完全交由机器自主完成。纯机器规划无法满足真正的企业级交付要求,必须重新构建人机分工体系。这套分工机制至关重要,也是企业级应用落地的核心关键。
4
从替代 Task 到重塑 Job
关于 Agent 能否真正落地,核心在于对 “任务(Task)” 与 “职业(Job)” 边界的深刻认知。正如吴恩达与李飞飞在 CES 期间所探讨的,人类的工作本质是一个完整的 Job,而 Job 则由无数个具体的 Task 构成。
当前大语言模型的能力,本质上是替代某些特定 Task,而非重塑整个 Job。没有任何一家 AI 企业能够全面覆盖一个 Job 所包含的数十个甚至上百个 Task,这正是绝大多数企业 AI 项目难以产生商业价值的核心症结。从管理层面而言,这意味着我们无法直接用 AI 替换现有岗位,必须开展 “业务流程再造”:通过重新规划 Job,将适合机器执行的 Task 归类为新的 “数字岗位”,将需要决策与审美能力的 Task 整合为人类的 “超级岗位”。
在借助 DeepMiner 对此进行深度探索时,系统给出了一个极具启发性的计算机工程视角:Task 聚焦 “正在执行什么”,而 Job 聚焦 “最终目标是什么”。这意味着在未来人机协同的组织架构中,机器将承担执行层面的 Task,而人类的核心价值将升级为对目标的定义、对结果的校验以及对逻辑的审计。
这一点与 Vibe Coding 领域的逻辑相通:人类无需再深陷于每一行代码的编写,而是通过搭建完善的测试与验证体系,确保最终目标的达成。
从这一维度来看,个人智能体与企业级智能体的核心差异,在于对目标的清晰界定。
对个人用户而言,能够轻松明确并传达指令,让 AI 完成对应操作;而正如 Andrej Karpathy 所指出的,AI 正开启一种全新的 “目标导向” 计算范式,这与传统 “过程导向” 的编程模式有着本质区别。传统程序本质上是预设好的执行路径,而如今的 AI 已具备围绕最终目标自主计算的能力 —— 因此 “得目标者得天下”,企业未来的核心竞争力,将聚焦于能否精准量化并定义自身的业务目标。每一个岗位的存在意义,也随之演变为目标设定与结果校验。在这种模式下,即便底层执行过程存在误差,系统也能通过持续反思与迭代进行修正。
这就如同火箭发射:尽管发射轨迹无法与预设完全一致,但只要锁定目标,便能通过控制论中的反馈机制持续微调,确保最终达成目标。
因此,企业级 AI 的本质是人机协同:由人类负责重新定义 Job、设定关键目标,具体的计算与路径探索则交由大模型与智能体完成。这种高效的协作模式,必将在未来创造出巨大的商业价值。
嘉宾介绍:
吴明辉,明略科技(2718.HK)创始人、CEO 兼 CTO,毕业于北京大学,HAO 人工智能框架理论创立者之一。拥有 20 余年软件开发与算法研究经验,超 180 项海内外专利以及 40 项专利申请。2006 年,创立中国最大的营销数据分析平台秒针系统;2014 年,创立明略数据,从大数据延伸至人工智能领域;2019 年,成立明略科技集团,同年入选国家新一代人工智能开放创新平台;近年来率领团队在大模型领域持续突破,超图多模态大模型技术获 ACM Multimedia 2024 最佳论文提名;专有 GUI 大模型 Mano 登顶 Mind2Web、OSWorld 全球权威双榜 SOTA。