当AI学会"挑剔"：中国科技大学与美团联合团队打造的智能审判员

市场资讯 04.30 21:41

（来源：科技行者）

这项由中国科学技术大学与美团联合开展的研究发表于2026年4月，论文编号为arXiv:2604.18240，有兴趣深入了解的读者可通过该编号查询完整内容。

每天，数以亿计的人在使用各种AI助手处理任务——搜索信息、操作电脑、查询数据库。但有一个鲜少被普通用户察觉的问题始终困扰着AI研究者：当这些AI助手完成任务之后，我们怎么知道它们做得对不对？

这个问题听起来简单，却深藏玄机。以往的解决思路大致分为两类。一类是提前写好规则，让程序自动比对答案，就像用标准答案批卷。这种方式对于简单的数学题还算凑合，但遇到"帮我查一下某个刚发布的技术报告是什么时候出版的"这类问题，提前写好的规则就完全不够用了，因为答案时刻在变、形式千变万化。另一类是让另一个AI来打分，研究者称之为"LLM-as-a-Judge"——简单理解就是让一个大语言模型当裁判，读完被测AI的回答后给出评价。这种方式灵活许多，但有个致命弱点：裁判AI自己也不上网、不查数据库，它只能根据脑子里已有的知识来判断，一旦涉及它不熟悉的最新信息或需要实际操作验证的内容，就会陷入"我也不确定"的尴尬境地。

正是为了突破这道瓶颈，研究团队提出了一个更激进的想法：让裁判AI也拥有行动力，能像真正的考官一样亲自去查资料、操作环境、验证细节。这种新型裁判被称为"Agent-as-a-Judge"——可以理解为"身怀十八般武艺的智能审判员"。为了系统评估这类审判员究竟有多好用、又有哪些短板，研究团队从零搭建了一套专属测试平台，命名为AJ-Bench。这是目前已知第一个专门为"Agent-as-a-Judge"能力设计的综合性基准测试，覆盖搜索、数据系统操作和图形界面交互三大领域，包含155项任务和516条人工标注的执行轨迹。

一、裁判为什么需要"动手能力"

要理解这个研究解决的核心问题，不妨回到一个极其具体的场景。

有人向AI搜索助手提问："LongCat-Flash技术报告的最新版本具体是哪一天发布的？"助手回答："2025年8月9日。"现在，如何判断这个答案是否正确？

传统的LLM裁判会怎么做？它会翻翻自己的"记忆"，发现这个技术报告可能超出了它的训练数据范围，于是给出一个模棱两可的回答："由于无法确认实际发布日期，我无法验证这个答案是否正确。"

而配备了工具的智能审判员会怎么做？它会直接打开浏览器，访问arxiv.org上对应的论文页面，看到页面上清楚写着"19 Sep 2025"，随即给出明确结论："答案应为2025年9月19日，被评估的回答给出的2025年8月9日与正确答案不符。"

这个对比道出了整个研究的根本动机：有些真相只有亲自去查才能知道，而不是单靠脑子里的存量知识就能判断。裁判如果只会"想"而不会"做"，在面对需要实际操作验证的任务时就会频频失灵。

AI助手越来越多地被部署在需要"真实行动"的场景中——浏览网页、操作数据库、控制电脑桌面。相应地，评判这些AI助手表现的裁判，也必须有能力深入同样的环境，亲眼看到结果，才能给出可信的判断。

二、测试场地的精心设计

AJ-Bench的构建过程本身就是一项相当精细的工程，值得细细道来。

研究团队选择了三个截然不同的领域作为测试场。

第一个领域是"搜索"，专门考察智能审判员在信息核实方面的能力。这里的任务来自两个已有的知名数据集：Mind2Web2和WideSearch。前者侧重于需要多跳推理的深度搜索，好比要先找到A才能找到B，再通过B才能确认C的那种连环查找；后者侧重于广泛收集信息，需要覆盖面广、来源多样。研究团队在筛选任务时特意排除了答案简单、一眼就能核实的问题，也排除了购物价格、机票信息这类随时会变化的时效性内容，因为这两类题目不足以真正考验审判员的深度核实能力。

第二个领域是"数据系统"（论文中简称DS），考察智能审判员能否通过操作真实环境来验证任务是否完成。具体来说，任务涉及文件系统管理和PostgreSQL数据库操作，都来自另一个已有的基准测试MCPMark。文件系统任务可能要求AI助手重命名文件、整理目录结构；数据库任务则要求修改表格、插入记录。对于这类任务，判断"做没做对"的唯一可靠方式，就是审判员亲自连上同一个环境，检查文件夹里的内容是否符合预期。

第三个领域是"图形界面"（GUI），也是技术难度最高的部分。任务来自OSWorld项目，涉及在真实的计算机桌面环境中操作PowerPoint、Word、Excel三类办公软件。审判员需要通过截图和界面元素树（一种描述屏幕上所有可见控件的数据结构）来判断一个AI助手的操作是否达到了预期效果，比如"图片有没有真正被移动到幻灯片右侧"或者"表格里的数据格式有没有按要求改变"。

整个基准测试最终包含155项任务和516条执行轨迹，每条轨迹都被标注为"成功"或"失败"。为了让正反案例保持平衡，研究团队在收集轨迹时特意确保每类任务都有足够数量的失败案例，而不是让数据集里全是成功完成的案例。

值得一提的是，标注质量有严格保障。搜索领域的标注由人工团队完成，标注人员薪酬与当地市场水平相当；数据系统领域借助MCPMark提供的自动验证脚本，再辅以人工复查；图形界面领域则因为自动化脚本本身存在局限，完全依靠人工逐条检查，以确保不出现误标。

三、"动手型"裁判真的比"动嘴型"裁判更准吗

带着这套精心设计的测试平台，研究团队开始了大规模对比实验。他们找来了当下最强的一批AI模型充当裁判，包括Gemini家族、Claude家族、GPT家族、Grok-4，以及若干顶级开源模型如deepseek-v3.2、kimi-k2、qwen3等。

实验结果非常清晰：当同一个AI模型被赋予"调用工具、与环境互动"的能力之后，它的裁判准确率会显著提升，平均F1分数提高约13个百分点。F1分数是评估分类准确性的综合指标，满分为100，研究中计算方式是将0到1之间的小数乘以100来展示，所以13个百分点的提升是相当可观的进步。

以gpt-5-mini这个模型为例，不配备工具时的整体F1约为59分，配备工具后跃升至约72分；开源的deepseek-v3.2不配备工具时约为64分，配备工具后升至约77分。这种提升在三个领域都有体现，但在图形界面领域尤为突出——仅在PowerPoint子类，提升幅度就高达31个百分点。这一现象不难理解：判断一个办公软件操作是否成功，如果裁判只能看文字描述，很难判断界面上的变化是否真的发生；但如果裁判能够截图查看、点击界面元素，真相就一目了然了。

还有一个令人印象深刻的发现：配备了工具的"弱"模型，打分准确率可以超过不配工具的"强"模型。换句话说，工具和环境访问能力带来的增益，有时甚至能弥补模型本身智力水平的差距。这说明当前那些依赖纯文本判断的裁判AI，已经遭遇了明显的能力天花板——不是它们不够聪明，而是仅凭阅读文字，确实无法完成某些必须亲自操作才能验证的判断任务。

不过，研究团队并不回避整体表现仍有不足的现实。即便是最优秀的配置，平均F1也只有约77分，距离满分还有相当距离。这说明"Agent-as-a-Judge"尽管有明显优势，依然面临一系列有待解决的技术挑战。

四、深思熟虑vs.快速行动：推理能力的悖论

一个直觉上很合理的推测是：裁判AI如果"想得更深、更仔细"，打分应该会更准确。研究团队专门检验了这个推测，结果却颇为微妙。

对于gpt-5-mini，研究者对比了"低推理"、"中推理"和"高推理"三种模式下的表现。从低推理到中推理，性能确实有稳定提升；但从中推理到高推理，提升就变得不稳定，在某些子类甚至出现了下降。对于deepseek-v3.2，开启"深度思考模式"后的表现反而略微弱于普通模式。

这个现象揭示了一个微妙的道理：裁判好不好，靠的是"会用工具、懂得分析工具输出结果"，而不单纯是"内在推理能力有多强"。更强的内在推理能力，并不直接等于更强的外部工具调用和信息整合能力。一个能做高难度数学题的人，不一定比一个逻辑能力稍弱但更熟悉操作流程的人更适合当实验室质检员。

五、互动次数越多，就越准吗

研究团队还检验了另一个关键问题：给裁判AI更多的"探索步骤"，是否能持续改善打分质量？

实验结果证实，增加最大互动轮次确实能持续提升F1分数，尤其是从极少步骤（1步、2步）增加到适中步骤（4步、8步）时，提升最为显著，这说明信息量的增加对裁判准确率帮助很大。当步骤增加到16步乃至32步时，提升仍然存在但趋于平缓，意味着额外的探索带来的边际收益在递减。

不同领域对互动步骤数量的敏感程度也不一样。Word和PowerPoint类任务从更多交互中获益最大，表明这类任务的状态验证本身就需要多次操作和确认。而文件系统类任务在相对少的步骤下就能达到不错的准确率，结构更简单、状态更容易一次性核实。

六、看图还是看树：多模态信息的两面性

在图形界面测试领域，裁判AI可以获得两种类型的信息：截图（直观地呈现屏幕视觉内容）和界面元素树（以结构化文本的形式描述屏幕上的所有控件及其属性）。研究团队逐一测试了"只给截图"、"只给元素树"和"两者都给"三种配置的效果。

结论出乎意料地复杂：并非在所有情况下，"两者都给"就比单独一种信息更好。在PowerPoint子类中，元素树单独使用与两者结合的效果旗鼓相当；在Word子类中，截图单独使用反而取得了最好的结果；只有在Excel子类中，"两者结合"才稳定地优于任何单一模态。

这个发现揭示了一个反直觉的现象：信息不是越多越好，多余的信息可能成为噪音，干扰裁判AI的判断。截图和元素树携带的信息有时是高度重叠的，两者同时涌入时，模型可能会在处理冗余内容上消耗注意力，反而影响了核心判断。换句话说，"如何喂信息给裁判"本身就是一个需要精心设计的工程问题。

七、失败的四种姿势

研究团队没有满足于宏观数据，他们对失败案例进行了细粒度的分类分析，总结出裁判AI犯错的四种典型方式。

第一种是"该动不动"——裁判AI本应调用某个工具验证关键信息，却没有这样做，导致判断依据不足，最终给出了错误的结论。第二种是"用错工具"——裁判知道需要查，却调用了不合适的工具，获取到的信息偏离了真正需要验证的内容。第三种是"信息摆在眼前却看不懂"——工具返回了正确结果，但裁判AI对这个结果的解读出现了偏差，要么断章取义，要么被旁枝末节分散了注意力，最终没能从正确的证据中得出正确的结论。第四种是"证据正确，逻辑出错"——裁判获取到了准确信息，推理过程表面上也看似完整，但最终结论还是错了，往往是因为在多种可能解释中选择了"宽松"而非"严格"的那一种，对被评估AI的行为给予了不应有的宽容。

从分布来看，第三种和第四种是最主要的失败来源，占了绝大多数错误案例。这意味着当前"Agent-as-a-Judge"系统最薄弱的环节，不是工具调用的技术层面，而是信息理解和逻辑推理的能力层面——拿到了线索，却没能正确破案。

说到底，这项研究做的事情，是给"AI的裁判"建了一个公平的考场，然后认认真真地考了一次试。考试结果喜忧参半：好消息是，让裁判AI也能动手操作环境，确实能大幅提升它判断他人表现的准确性，而且这种提升在不同的模型、不同的任务类型上都是稳定可见的；坏消息是，即使是最优秀的"动手型"裁判，平均分也只有77分上下，依然有超过五分之一的案例判断失误。

归根结底，这项研究说明了一件关于AI评估领域的重要事情：随着AI越来越多地被部署到需要真实操作的场景里，我们用来评判这些AI的方法也必须跟上节奏，不能再停留在"读读文字、想想打几分"的阶段。研究者们预计，未来这套框架有望被引入AI训练过程本身，帮助模型在学习阶段就获得更精准的反馈信号，就像给学生配备了一位会亲自上机操作验证的老师，而不是只会看答案纸的改卷机器。

当然，还有很多问题值得继续追问：如果裁判AI本身判断失误，谁来监督裁判？随着任务越来越复杂，所需的互动步骤会不会多到难以承受？不同任务对不同信息类型的偏好，能否被系统性地学习和利用？这些问题，或许正是该领域下一步研究的路标。对这个话题感兴趣的读者，可以通过arXiv:2604.18240找到完整的论文原文，深入探索其中的每一个技术细节。

Q&A

Q1：AJ-Bench测试平台具体测试了哪些能力，为什么要选这三个领域？

A：AJ-Bench主要测试智能审判员在三方面的能力：通过网络搜索获取外部信息、通过操作真实环境验证状态变化、通过分析执行步骤判断流程是否正确。选择搜索、数据系统和图形界面这三个领域，是因为它们分别代表了当前AI助手最常见的三类实际应用场景，且每类场景都需要裁判真正动手操作才能可靠验证——光靠读文字根本不够用。

Q2：Agent-as-a-Judge比普通LLM裁判究竟强在哪里，差距有多大？

A：核心优势在于可以主动与外部环境交互来获取验证证据，而不是只依靠模型自身存储的知识来猜测。在AJ-Bench的测试中，同一个模型获得工具调用能力后，平均F1分数提升约13个百分点，在图形界面类任务中提升更高达30个百分点以上。一个使用工具的"较弱"模型甚至能超过不使用工具的"更强"模型，说明工具访问能力带来的增益相当显著。

Q3：Agent-as-a-Judge目前最大的失败原因是什么？

A：根据研究团队对失败案例的分类分析，最常见的两类错误分别是"工具输出摆在面前却解读错误"和"证据正确但推理结论有误"。前者表现为被不相关信息分散注意力或对工具返回内容断章取义；后者表现为在面对多种解释时倾向于给出宽松判断，对被评估AI的错误行为网开一面。工具调用技术层面的失误反而是少数，核心瓶颈在于信息理解和逻辑推断能力。