中科大团队打造"画图自我检查"系统，让AI反复核对直到画对为止

市场资讯 05.21 21:03

（来源：科技行者）

这项由中国科学技术大学（USTC）联合独立研究者共同完成的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2605.14876，题为《Unlocking Complex Visual Generation via Closed-Loop Visual Reasoning》。感兴趣的读者可以通过该编号在arXiv平台检索完整论文。

你有没有遇到过这样的情况：你让AI画一张"左边站着一只红色小狗、右边摆着三朵蓝色郁金香、背景是雪山"的图，结果AI交给你一张画——狗是棕色的，花只有两朵，雪山画成了海浪？这种令人哭笑不得的失误，正是当今最先进的文字生成图像技术（简称T2I）的通病。中科大的研究团队决定从根本上解决这个问题，他们打造了一套叫做"闭环视觉推理"（Closed-Loop Visual Reasoning，简称CLVR）的全新系统，让AI在画图时不再"一锤定音"，而是像一个有责任心的画师那样反复核对、发现问题、动手修改，直到作品真正符合要求为止。

要理解这套系统的价值，先要明白现在的AI画图是怎么工作的。现有的文字生成图像模型，无论多么强大，本质上都在做一件事：拿到你的文字描述，一口气生成一张图，然后就算完成任务了。这就像一个画师读完了委托书，闭上眼睛，凭记忆一笔画到底，画完之后不回头看、不对照要求检查，直接交稿。当描述简单的时候，这种方式还凑合。但当描述变得复杂——涉及多个物体、复杂的空间关系、精确的数量、特定的风格，甚至还有文字内容要渲染的时候——这种"一口气生成"的方式就开始频繁翻车。研究团队通过实验证实了这一点：随着画面要求越来越复杂，哪怕是最顶尖的单步生成模型，表现也会急剧下滑，而且单纯靠堆砌更大的模型参数来提升能力，收益越来越小，成本却越来越高。简单来说，用"蛮力"扩大模型规模这条路，在复杂语义理解上已经接近天花板了。

既然单步生成有天花板，那能不能让AI也像人类一样"边做边检查"呢？这个想法并不新鲜，已经有一些研究者在探索"链式思考"（Chain-of-Thought，CoT）在图像生成中的应用——也就是让AI把一个复杂任务拆解成多个步骤，一步一步来。但已有的方案存在几个棘手的问题，这也是CLVR着力要解决的核心矛盾。

一、旧方案的四道"卡关"

第一道关卡是"训练数据不可靠"。教AI按步骤画图，需要大量"示范性的推理过程数据"——也就是一步一步画图、每一步都经过验证的样本。但现有方法在收集这类数据时，往往没有严格检查每一步是否真的画对了，结果训练数据里混入了大量"画错了还继续往下走"的错误示范，AI学到的不是正确的做法，而是如何在错误之后打补丁。

第二道关卡是"只会事后补救，不会事前规划"。现有多步骤方案大多是"先画一张，不满意再修"的模式。本质上，最终效果好不好，在第一步生成图的那一刻就已经基本定型了，后续的修改都是在打补丁。这就像盖房子先随手搭了个框架，再想办法修修补补，而不是一开始就按图纸规划好每个步骤。

第三道关卡是"长时记忆混乱"。多步骤推理过程中，AI需要同时处理文字描述、前几步画出来的图、每一步的修改指令……这些信息交织在一起，形成一个很长的"图文混杂"的上下文。实验发现，AI在处理这种长上下文时很容易"忘事"——前面提到的某个细节要求，到后面就悄悄丢失了，导致前后不一致。

第四道关卡是"速度太慢，根本没法实用"。扩散模型生成图像本来就需要很多步计算（专业术语叫"去噪步骤"），如果每次修改都要重新跑一遍几十步的计算流程，那每生成一张图可能要等好几分钟，这在实际应用中完全不可接受。

CLVR系统针对这四道关卡，分别设计了对应的解决方案，形成了一个从数据生产、模型训练、推理机制到加速部署的完整闭环体系。

二、"严格验收"的训练数据工厂

教一个AI学会"边画边检查"的正确方法，首先需要高质量的"示范数据"——就像培训一个学徒画师，要给他看的是老师傅一步一步、每一步都认真核对的完整示范，而不是混了很多错误操作的杂乱记录。

CLVR的研究团队专门设计了一套全自动的数据生产流水线。这套流水线把AI的作画过程设计成"感知—推理—行动"三个循环往复的环节。"感知"是指AI观察当前画出来的图和用户要求之间的差距；"推理"是指AI思考下一步应该怎么改；"行动"是指AI调用相应的工具执行操作，比如"重新生成底图"、"局部编辑图像"、"验证当前结果"，或者"宣告完成"。

这套流水线有两个关键的质量把关机制。第一个叫"被动验收"，它像一个严格的质检员站在每一道工序的出口。每次AI调用工具画出新的图之后，一个专门的审核子程序会根据当前步骤的具体要求生成一份检查清单，逐一核对这一步是否真的完成了。只要有一步没通过检查，整条轨迹数据就立即作废，从头重来。这确保了每一步操作的执行结果都是可靠的，绝不把"画错了"的步骤混入训练数据。第二个叫"主动验收"，它更像一个全局的项目监督人。在推理过程中，AI可以主动调用这个机制来检验当前的画面是否整体上满足了用户的原始要求。如果发现语义上的漏洞，它会给出具体的改进意见，让AI调整计划、重新执行之前的步骤，从而形成一个真正的"闭环"。

此外，每条候选数据还要过最后一关：系统会生成一张"一口气画好的"对照图，然后让两个独立的顶级AI评审（Gemini 2.5 Pro和Seed 1.8）进行盲测比较。只有当两个评审同时认为多步骤推理的最终成品在指令遵循和视觉质量上都优于那张一口气生成的图，这条数据才会被保留下来。

经过这套严格的多轮筛选，从大约10万条初始提示词出发，最终留存了20861条高质量的推理轨迹数据，保留率约为21%。这个数字看起来不高，但正是这种严格筛选，保证了训练数据的可靠性。数据生成完毕后，还会经过一个"翻译"步骤，把那些离散的工具调用记录转换成流畅的自然语言推理叙述，让AI在学习时能看到完整的思考过程，而不只是干巴巴的操作指令。

三、让"奖励信号"看懂长篇上下文的代理提示强化学习

有了高质量的训练数据，研究团队还需要一套有效的训练方法，来让AI真正学会处理那些图文混杂的长上下文。这里最大的难题是"奖励信号失真"问题。

在强化学习框架里（简单说，就是用"做对了给奖励，做错了给惩罚"来训练AI），每次AI生成一张图，需要一个"评分员"来评价这张图画得多好，AI才能据此调整自己的行为。但问题是，现有的评分员（奖励模型）都是为了评价"给定一段简短文字说明，画出来的图怎么样"而设计的。如果把一大段图文混杂的推理历史丢给它，要求它判断"在这么复杂的背景下，这一步画得对不对"，它往往懵了，给出的分数又随机又不准确，整个训练过程就乱了套。

研究团队提出的解决方案叫做"代理提示强化学习"（Proxy Prompt Reinforcement Learning，PPRL）。核心思路是：先用一个强大的"翻译大师"AI（一个顶级的视觉语言大模型）来处理那段复杂的长上下文，把它"蒸馏"成一条简洁、明确、当前步骤专用的指令。这条提炼出来的简短指令就叫"代理提示"（Proxy Prompt）。

具体来说，对于第一步"从零画图"的情况，翻译大师会把整段上下文提炼成一个全面的场景描述；对于后续的"基于前图修改"情况，翻译大师会同时提炼出三样东西：一段全面的场景描述、一条具体的编辑指令，以及在历史图片库里应该参考哪几张图的索引。有了这套简洁明了的"代理提示"，再加上从历史图片里精准定位的参考图，现有的图像评分员就能正确评价这一步生成结果的好坏了，奖励信号变得清晰可靠，训练过程也随之稳定下来。

最终的奖励计算是这样设计的：对于第一步的纯文字生成任务，完全依赖一个"文字到图像质量"评分员来打分；对于后续的图像编辑步骤，则把"画面整体质量"评分和"编辑精准度"评分各占一半来综合计算。训练时先进行监督微调作为热身，让模型从单步生成模式过渡到多步推理模式，然后再用PPRL进行强化学习优化，进一步打磨。

四、"历史记忆"驱动的推理流程

训练好的CLVR系统在实际运行时，遵循一套精心设计的循环推理流程。在这个流程里，"语言推理模型"扮演一个全局决策者的角色，"扩散生成模型"扮演一个执行者的角色，两者紧密配合。

每一轮迭代中，决策者会观察当前画布（最新生成的图）和完整的历史记录，包括用户最初的要求、每一步的推理过程文字以及每一步生成的图像。然后，决策者思考并给出下一步的行动方案，同时更新上下文记录。如果决策者判断画面还需要继续改进，就把任务交给执行者生成新图；新图生成后被添加到历史记录里，决策者再次观察，进入下一轮。如果决策者认为当前画面已经充分满足了用户的要求，就发出"完成"信号，输出最终图像。

这种"轨迹累积条件化"的设计，确保执行者在生成每一步图像时，能够完整获取所有历史信息，而不只是看到当前步骤的局部指令。这正是前面PPRL训练所着力培养的能力——理解并遵循长链路的、图文交织的复杂上下文。

五、不用重新训练就能加速的"权重合并"魔法

多步骤推理系统有个几乎绕不过去的硬伤：速度慢。每生成一张中间图，扩散模型就要运行一遍完整的去噪流程，默认需要28步计算。如果一个任务要改三四次，总计算量就翻了好几倍，等待时间让人难以忍受。

解决这个问题的标准方案是"蒸馏"——用大量数据专门训练一个"快速版"模型，让它4步就能达到28步的效果。但这个方案在CLVR场景下行不通：为了蒸馏，需要大量专门为多步推理场景准备的高质量数据，而这类数据本来就很稀缺、生产成本极高——毕竟之前的数据工厂筛选了21%的数据才能用。

研究团队转而想到了一个巧妙的替代方案：市面上已经有现成的"快速版"通用扩散模型（也就是针对普通文字生成图像场景蒸馏好的模型），能不能把"让模型画得更准确"的能力和"让模型跑得更快"的能力直接在参数层面合并起来，而不需要重新训练呢？

这就是"△空间权重合并"（△-Space Weight Merge，DSWM）方法的核心思路。用一个比喻来说：把一个普通厨师（基础扩散模型）分别培训成了两种专才——一个"快手厨师"（蒸馏模型，出菜快但菜品相对普通）和一个"精细厨师"（对齐模型，严格按照复杂食谱执行）。现在，不重新从头培训，能不能把这两位专才的技能直接融合到一个人身上？

研究团队用数学推导论证了这种融合在理论上是合理的。直觉上的解释是：蒸馏训练让模型学会的是"如何快速跳到正确的画面方向"，可以理解为在"画质流形"这个曲面上做"垂直于曲面的快速跳跃"；而对齐训练（包括监督微调和强化学习）学会的是"在正确的画质范围内，如何更精准地满足复杂指令"，可以理解为"沿着曲面表面的精细移动"。这两种"运动"方向在数学上近似于正交（垂直关系），互不干扰，因此可以直接叠加。研究团队还用实验数据验证了这个直觉：相对于基础模型，蒸馏模型的参数偏移量只有约2.79%，完整监督微调的偏移量约为2.30%，强化学习的低秩适配偏移量更是只有约0.0075%，都处于"局部小扰动"的范围内，线性叠加的误差可以忽略。

具体操作上，DSWM直接把基础模型权重、蒸馏模型相对基础模型的"增量"、以及对齐模型相对基础模型的"增量"三者相加，得到一个融合模型，无需任何额外训练。融合后的模型在推理时只需要4步去噪，而之前基础模型加推理框架需要每步28步去噪（还要跑两个方向），从"28步×2"直接降到了"4步"，速度提升显著。

六、实验结果：从数字看"反复核查"的价值

研究团队在五个不同维度的评测基准上对CLVR进行了全面测试，对手包括各类开源模型和商业模型，结果相当有说服力。

在GenEval基准（专门测试图像是否忠实包含指定物体和属性的基准）上，CLVR的9B版本拿到了0.88的总分，与同等量级的基础模型（FLUX.2 9B，0.80分）相比提升明显，而且超过了Uni-CoT（0.83分）和T2I-R1（同类多步推理方法），与GPT-4o（0.84分）相当，甚至在某些子项上超过了GPT-4o。特别是在"位置关系"（物体摆放位置是否正确）这个子项上，CLVR（9B）得到0.80分，而基础模型只有0.59分，提升幅度非常大；在"计数"（数量是否准确）子项上，从0.80提升到了0.89。

在WiseBench基准（测试模型是否真正理解并应用世界知识，比如文化常识、时间空间推理、自然科学等）上，CLVR（9B）得到0.76分，与GPT-4o的0.80分非常接近，而基础模型只有0.52分。这说明CLVR不只是在"画得像不像"上有提升，在"画得对不对（是否符合世界知识）"上同样表现出色。

在PRISM基准（更综合的多维度评测，包括想象力、实体准确度、文字渲染、风格、情感、构图和长文本理解）上，CLVR（9B）的总分达到82.1，超过了目前最强的开源基准Qwen-Image的79.9分，同时缩小了与GPT-4o（86.3分）的差距。在"构图"子项上，CLVR（9B）甚至拿到了94.0分，超过了GPT-4o的92.8分。

在ImagineBench（测试创意性和奇幻场景生成）和GenEval++（更难的组合关系测试）上，CLVR同样大幅超越了基础模型和大多数开源竞争者，总分分别为8.830和0.689（9B版本）。

研究团队还专门做了一个"语义复杂度探针"实验，来量化证明单步生成模型确实存在天花板。他们把测试提示词按照复杂程度分成10个等级，然后测量各模型随复杂度变化的表现。结果清晰地显示：单步模型的通过率随复杂度提升急剧下滑，而且要想提升能力，需要以指数级别增加模型参数（实验测得斜率约为1.075次方的幂律关系）；而CLVR的通过率曲线在高复杂度区间显著更平稳，在整个复杂度谱系上的积分面积（AUCpass）从73.89提升到了98.79，却没有扩大底层模型的参数量。

研究团队还专门对比了"让AI直接帮你把描述改得更详细，然后一口气生成"（提示词重写）和CLVR多步推理之间的差异。结果发现，提示词重写在WiseBench上有帮助（知识类问题受益于AI的额外知识注入），但在GenEval上反而有所下降（因为描述本来就很明确，改写反而带来干扰）。CLVR则在两类基准上都更好。这说明CLVR的价值不只来自"让AI帮你把描述写得更好"，而是真正来自"把复杂任务拆解执行"和"每步结果都在扩散模型能力范围内"这两点本质提升。

在推理效率方面，配合DSWM加速后，最常见的两步推理轨迹（约68%的GenEval测试案例）平均生成时间从287秒降至25.5秒，实现了约11倍的提速，让整个系统真正进入了可实际部署的速度范围。研究团队还发现，在简单的GenEval测试上，大约68%的任务只需两轮迭代就能完成；而在更难的PRISM测试上，模型会自适应地运行更多轮，充分体现了"按需推理"的能力。

归根结底，CLVR做的这件事，可以用一句话来概括：把"一口气交稿"的AI画师，改造成了"边画边对照要求反复核查"的认真画师。这个思路听起来简单，但背后涉及了数据质量、训练方法、推理架构和部署加速四个维度的系统性设计，缺少其中任何一环，整个系统都难以真正落地。

这对普通用户意味着什么？当你需要AI生成包含多个细节要求、复杂空间关系或需要精确数量的图像时，基于CLVR框架的工具会表现得更加可靠，那些"狗画成了猫、花多画了一朵"的低级错误会大幅减少。从更长远来看，随着这类"自我检验、迭代精进"的能力被引入更多AI创作工具，AI辅助图像创作的可用性和专业性都会有质的提升。当然，目前的CLVR也有明显的局限：用户很难主动控制AI到底要检查几轮才肯"交稿"，如果想少等一会儿或者限制计算成本，还没有方便的调节旋钮。此外，这套框架目前专注于静态图像生成，要扩展到视频、三维模型等领域，还需要面对时间一致性、多视角几何约束等新挑战，这也是研究团队自己指出的未来方向。

对这项研究感兴趣的读者，可以通过arXiv:2605.14876检索完整论文，深入了解每个技术细节。

Q&A

Q1：CLVR和普通文字生成图像模型有什么本质区别？

A：普通文字生成图像模型拿到描述后一次性生成图片，不检查也不修改。CLVR让AI像认真的画师一样，生成图片后主动对照要求检查哪里不对，然后针对性修改，反复循环直到满足所有要求为止，因此在处理复杂描述时准确率大幅提升。

Q2：代理提示强化学习（PPRL）解决了什么具体问题？

A：训练AI处理多步骤图像生成时，需要评分员判断每一步生成的图好不好。但现有评分员只能处理简单的短文字指令，面对图文混杂的长推理历史就失效了。PPRL先用顶级AI把复杂历史"翻译"成简短明确的当前步骤指令，再让评分员对这条简短指令打分，使奖励信号准确可靠，训练因此稳定。

Q3：DSWM权重合并方法为什么不需要重新训练就能让模型变快？

A：加速扩散模型通常需要用大量数据重新蒸馏训练。DSWM基于数学推导发现，"加速能力"和"按复杂指令精准画图的能力"对模型参数的影响方向近似垂直，互不干扰，因此可以直接把两种能力对应的参数增量相加，无需额外数据或训练，就能同时获得两种能力。