德州农工大学联合团队打造"视频编辑考官"
(来源:科技行者)
这项由德州农工大学(Texas A&M University)、Visko Platform与Abaka AI联合开展的研究,于2026年4月以预印本形式发布于arXiv平台,编号为arXiv:2604.16272v1,发布日期为2026年4月17日。
说到AI视频编辑,你大概已经见过不少令人眼花缭乱的演示——用一句话就能把视频里的晴天变成暴雪天,把草原变成沙漠,把普通人变成赛博朋克风格的未来战士。这类技术正在以惊人的速度进入普通人的创作工具箱,从短视频博主到影视后期制作团队,都开始尝试用AI来完成过去需要大量人工的修改工作。
然而,一个关键问题始终悬而未决:这些AI工具,到底改得好不好?
这个问题看起来简单,实则暗藏玄机。当你让AI把视频里的苹果变成香蕉,你需要问的不止是"它有没有改",还要问"改出来的香蕉好不好看",以及"改的时候有没有顺手把旁边的桌子也改掉"。这三件事,可以同时发生,也可以彼此独立——一个AI可能把香蕉画得活灵活现,但顺带把整张桌子的颜色都变了;另一个AI可能只动了苹果,但改出来的香蕉像一团黄色的模糊色块。
正因为没有一把好用的"量尺",这个领域长期面临一个尴尬局面:要么靠人工一个个看视频打分,费时费力;要么靠通用的AI助手来当"裁判",但这些通用AI并不懂视频编辑的专业门道。德州农工大学、Visko Platform与Abaka AI的联合团队决定彻底解决这个问题,他们打造了一套完整的"考试体系"——包括一个大型人工标注数据集、一个专用评分模型,以及一个标准化测试题库。
一、为什么给AI视频编辑打分这么难
打分这件事,听起来像是让老师批改作文——但视频编辑的"作文"有其特殊之处。
普通的作文评分,你可以整体感受一下语言是否流畅、逻辑是否清晰、内容是否扣题。但视频编辑的评分,至少需要同时考察三件完全不同的事情。第一,模型有没有照着要求改?如果你说"把背景换成雪山",它换没换,换得像不像?第二,改完的视频好不好看?画面有没有闪烁、模糊、穿帮、扭曲的地方?第三,改的时候有没有"顺带破坏"不该碰的地方?比如你只让它改背景,它结果把前景的人脸也一并改掉了。
这三件事在技术上被称为"指令跟随"(Instruction Following,简称IF)、"渲染质量"(Rendering Quality,简称RQ)以及"编辑独占性"(Edit Exclusivity,简称EE)。研究团队将这三个维度独立开来打分,背后有一个重要原因:这三件事是可以相互脱节的。
举个例子:你让AI"把苹果变成香蕉",结果AI什么都没改,原封不动地返回了原视频——但原视频画质非常高,完全没有任何瑕疵,也没有改动任何不该改的地方。这时候怎么打分?按照研究团队的标准,指令跟随得1分(完全没跟),渲染质量得4分(画面完美),编辑独占性得4分(没有改任何不该改的东西)。这三个分数,同时都是对的。
如果你把这三件事合并成一个分数,就会掩盖掉真正的问题所在——到底是哪里出了毛病。
二、打造"题库":5049个有据可查的编辑案例
这项研究最扎实的基础工程,是建立了一个叫做VEFX-Dataset的数据集,里面包含5049个视频编辑的完整案例。
每一个案例都是一个完整的"考试题":原始视频是题目,编辑指令是要求,编辑结果是答案,而人工标注的三维分数则是评分标准。这听起来简单,但实际操作极为复杂。
视频素材的来源包括公开数据集Open-Sora和OpenVid-1M,以及团队自行采集的私有素材,最终经过严格筛选,保留了1419个高质量原始视频,覆盖自然风光、人物、街景、机器人等10种场景类型,分辨率要求在720p以上,且帧数不少于40帧,同时排除了任何存在剪切跳切、速度变化、裁剪缩放或不适宜内容的素材。
编辑指令则覆盖9大类、32个子类的编辑任务。这9大类分别是:实例编辑(比如给视频里的某个物体换颜色或者换形状)、摄像角度编辑(比如把平视镜头改成俯视镜头)、摄像运动编辑(比如添加推拉摇移的镜头运动)、数量编辑(比如把画面里的一棵树变成三棵树)、属性编辑(比如改变物体的纹理或材质)、创意编辑(比如给场景添加戏剧性的创意元素)、风格编辑(比如把写实风格改成水彩画风格)、实例运动编辑(比如让视频里的人做出特定的动作),以及视觉效果编辑(比如添加下雪、火焰、闪电等特效)。
为了让指令和视频内容相匹配,团队使用谷歌的Gemini 3 Flash模型来分析每段视频的内容,然后自动生成适合该视频的编辑指令,并排除掉那些匹配度不高的组合。
接下来是生成被编辑的视频。团队没有只用一种工具,而是刻意混合了多种来源:商业系统(包括Grok Imagine、Kling Omni、Wan 2.6和Luma Ray2)、开源模型(包括VACE和UniVideo),以及一套由团队自己设计的智能编辑流水线——这套流水线针对不同编辑类型使用了SAM 2、ROSE、PISCO、ViTPose、Depth Anything V3、ReCamMaster、LightX、Wan-Animate等多个专业工具,通过自动化串联完成复杂的编辑任务。
多样化的来源很重要,因为不同工具在不同类型的编辑上各有所长,这样生成的数据集才能覆盖各种质量水平和失败模式,让后续训练出来的评分模型更加健壮。
三、打分员是怎么工作的:四级量尺的细节
有了题目和答案,还需要专业的打分员。研究团队邀请了受过专业训练的标注员,对每一个编辑案例的三个维度分别打1到4分。
在指令跟随维度上,4分代表所有要求的编辑都正确完成,没有任何遗漏或错误;3分代表主要的编辑完成了,但有一处细节轻微偏差,比如颜色稍微不准或范围略有偏差;2分代表视频和指令有些关联,但主要要求只完成了一半,或者出现了比较严重的语义偏差,比如改了正确的区域但换成了错误的东西;1分则代表完全没有执行指令,或者改动方向完全相反。
渲染质量的4分是画面清晰、时间稳定、自然流畅、几乎没有任何瑕疵;3分是基本可以看,但存在轻微模糊、局部闪烁、小范围的不自然感;2分是明显的、反复出现的质量问题,比如持续闪烁、物体变形、鬼影、严重模糊;1分是完全无法接受的视觉崩坏,画面主体失真,时间连贯性完全破坏。
编辑独占性的打分逻辑是这样的:4分代表没有任何清晰可见的"误伤"——所有不该改的地方都没被动;3分代表有一处清晰的"误伤",但整体场景还在;2分代表有两到三处"误伤",或者有一个很大的背景区域被意外改动了;1分代表全局性的过度编辑,整个场景面目全非,完全不像一个局部编辑的结果。
标注员在正式打分之前,都要经过专门的培训,看过完整的指导手册和参考案例。团队还做了一次可靠性测试:从数据集里随机抽取550个案例,交给另一批全新的标注员重新打分,然后比对两次结果的一致性。结果显示,在三个维度上,"差距不超过1分"的一致率均超过91%:指令跟随是93.5%,渲染质量高达97.2%,编辑独占性是91.7%。完全一致的比例分别是75.2%、87.2%和72.2%。这组数字说明,人类对渲染质量的判断最为统一,而对编辑独占性和指令跟随的判断则稍微主观一些,但整体仍然足够稳定,可以用于训练评分模型。
四、数据里藏着的秘密:三件事真的是三件独立的事
数据集构建完成之后,研究团队对所有标注数据做了详细的统计分析,发现了几个颇为耐人寻味的规律。
从分数分布来看,三个维度的差异相当显著。指令跟随的分布呈现出极化特征:有41.2%的案例得了最低的1分,而得最高4分的有28.1%,中间两分的比例相对较低。这说明当前的AI视频编辑工具在执行指令这件事上,要么干得不错,要么干得很差,模糊地带反而不多。渲染质量则截然不同,有高达78.6%的案例得了3分或4分,只有6.8%得了1分,说明现在的AI在让视频"看起来不错"这件事上已经做得相当好了,视觉上的流畅感和真实感已经不是最大的短板。编辑独占性则在各个分数段的分布比较均衡。
三个维度之间的相关性分析进一步支持了"它们确实是三件不同的事"这个判断。指令跟随和渲染质量之间的相关系数只有0.241,指令跟随和编辑独占性之间只有0.195,渲染质量和编辑独占性之间也只有0.327。这三个数值都很低,意味着一个维度的高分完全不能预测另一个维度的表现。如果把这三件事合并成一个分数,大量重要信息就会淹没在平均值里。
从任务难度来看,摄像角度编辑是最难的——指令跟随平均分只有1.76,这是因为改变摄像角度需要AI理解三维空间关系,这对当前模型来说仍然非常困难。相比之下,风格编辑是最容易的,指令跟随平均分达到2.87,把一段视频改成水彩画风格或者赛博朋克风格,现在的AI已经做得相当不错了。但有意思的是,风格编辑的编辑独占性得分却比较低,平均只有2.23,说明当AI改风格时,往往会"改得太多",把一些不该动的细节也一并改掉了。这种"指令跟随好但独占性差"的组合,在单一分数评估体系下是完全看不出来的。
五、训练一个专门的"考官"模型:VEFX-Reward的设计
有了数据集,研究团队的下一步是训练一个能自动打分的模型,这就是VEFX-Reward。
这个模型的工作方式,类似于一个同时拿着原稿、修改要求和修改结果的审稿人——它需要三件事都看,才能给出准确的判断。具体来说,VEFX-Reward的输入是:原始视频、编辑指令、编辑后的视频,输出是三个维度各自的分数。
模型的骨架来自Qwen3-VL系列,这是一款能够同时理解图像、视频和文字的多模态大模型。研究团队在这个骨架上做了两处关键改造。
第一处改造是引入三个特殊的"问询标记",分别叫做IF_reward、RQ_reward和EE_reward。这三个标记就像三个各司其职的审稿员,每个人只负责看自己那一项——一个只看有没有按要求改,一个只看画质好不好,一个只看有没有误伤无辜。模型最后从这三个标记对应的状态向量里,分别提取出三个维度的分数。
第二处改造是打分方式的设计。研究团队选择了一种叫做"序数回归"的方法,而不是简单地预测一个连续的数值。序数回归的思路是:与其直接预测"这个视频的指令跟随得几分",不如依次回答三个更简单的是非题——"这个视频的指令跟随是否超过1分?是否超过2分?是否超过3分?"然后把三个是非题的结果综合起来,得出最终分数。这种方法更符合1到4这种有明确顺序的评分尺度,而且能够更好地处理数据里那种两极分化的分布特征。
模型有两个版本:VEFX-Reward-4B(40亿参数)和VEFX-Reward-32B(320亿参数)。训练时使用了4200个案例,测试时用了849个独立案例,两个集合之间没有重叠,且按编辑类型和来源系统做了分层抽样,确保测试集能代表真实的数据多样性。
视频在送入模型之前,会以每秒4帧的速度均匀抽帧,每一帧的分辨率被压缩到大约632×632像素,原始画面的长宽比则保留不变。原始视频和编辑后视频的抽帧时间点是对齐的,这样模型才能真正做到帧对帧的比对。
训练分两个阶段进行。第一阶段持续1个训练周期,只训练新加入的问询标记和打分头,预训练好的骨架参数全部冻结不动;第二阶段持续49个训练周期,把语言部分的骨架、问询标记和打分头全部打开一起微调,但视觉编码器依然保持冻结。这种分阶段的策略,是为了先让模型学会"如何问问题",再让它学会"如何理解视频内容和问题的关系"。
六、实战测试:VEFX-Reward和各路竞争对手的较量
有了模型,就需要检验它到底好不好用。研究团队设计了两种评估方法,分别衡量不同层面的对齐能力。
第一种方法是学术界通用的图像/视频质量评估指标,包括斯皮尔曼秩相关系数(SRCC)、肯德尔秩相关系数(KRCC)、皮尔逊线性相关系数(PLCC)和均方根误差(RMSE)。这四个指标从不同角度衡量模型预测的分数和人类打的分数之间的一致程度,SRCC和KRCC看排名是否一致,PLCC和RMSE看具体数值是否接近。
参与对比的有三类"竞争对手":以通用大模型作为评分裁判(Qwen3.5-397B、Qwen3.5-122B、Gemini-3.1-Pro、Gemini-3.1-Flash-Lite、Gemini-2.5-Flash、Seed-2.0-Lite、Seed-1.6),以及两个已有的专用评分模型(针对图片编辑的EditReward,以及针对视频编辑的VE-Bench)。
结果显示,VEFX-Reward-32B在综合得分(三维平均)上以0.780的SRCC、0.616的KRCC、0.790的PLCC和0.475的RMSE位居第一;VEFX-Reward-4B紧随其后,四项指标分别为0.760、0.595、0.771和0.493。相比之下,EditReward的综合SRCC只有0.558,VE-Bench更低,只有0.214。通用大模型裁判虽然在个别指标上表现尚可,但没有一个能在所有维度和所有指标上同时稳定超越VEFX-Reward。
EditReward表现差的原因是显而易见的:它是为图片编辑设计的,并没有考虑视频的时间维度,也没有专门用于编辑独占性的评分头,拿来评估视频编辑自然力不从心——它在渲染质量维度上的得分甚至是负的,说明它的判断和人类完全背道而驰。VE-Bench虽然是视频编辑评分模型,但它只输出一个综合分数,无法区分不同维度的失败,整体对齐效果也很弱。
第二种评估方法叫做"组内偏好准确率",更接近真实使用场景。当你拿到同一段原始视频和同一条编辑指令,由不同工具分别生成了三个结果,你想知道哪个最好——这时候你不需要知道绝对分数,只需要知道相对排名。组内偏好准确率衡量的就是:给定同一道题的多个答案,评分模型对好坏排序的判断是否和人类一致。
在这个评估上,VEFX-Reward-32B的综合准确率达到了0.872,VEFX-Reward-4B是0.863,两者都大幅领先EditReward(0.792)和VE-Bench(0.665)。这说明VEFX-Reward不只是在全局统计上和人类对齐,在帮助用户从多个候选结果里挑选最好的那个这件实际任务上,它同样可靠。
七、用新量尺来量一量市场上的主流工具
研究团队还用VEFX-Reward-32B对10款具有代表性的视频编辑工具进行了系统性评测,包括8款商业系统和2款开源系统。
为了衡量整体表现,团队设计了一个叫做"几何加权综合分"(GeoAgg)的排名指标。这个指标的核心思想是:强项不能弥补弱项。如果一个工具渲染质量极高,但指令跟随非常差,它的综合分依然会被拖累——因为对用户来说,一个画质再好但完全没按要求改的视频,根本没有实用价值。在具体权重上,指令跟随的权重是渲染质量和编辑独占性的两倍,反映了语义准确性在视频编辑中的核心地位。
排名结果显示,Kling o3 omni排名第一,几何综合分达到3.057,它在指令跟随(3.033)和渲染质量(3.588)上都表现强劲。Kling o1排名第二,综合分2.985,指令跟随同样达到3.040。值得注意的是,Kling o1在三个维度的均衡性上表现出色,没有明显短板。
Runway Gen-4.5排名第三,综合分2.912,它的综合行为比较均衡,但因为部分测试题没能完成(平台有推理限制),它的分数经过了统计修正。Seedance 2.0排名第四,修正后综合分2.766,渲染质量(3.421)和编辑独占性(3.088)都不错,但指令跟随(2.811)相对弱一些。
Grok Imagine有一个很有特点的表现:它的编辑独占性得分在所有工具中最高,达到3.376,说明它在"只改该改的地方"这件事上做得最好,但它的指令跟随只有2.606,所以综合排名落在了第五位(2.723)。这个例子很好地说明了多维评估的价值——如果只看单一综合分,Grok Imagine的这个独特优势就会被淹没。
在开源系统中,UniVideo(综合分2.516)明显强于VACE(1.775),甚至能和部分商业系统抗衡,特别是在编辑独占性上表现相当不错。VACE在编辑独占性上几乎垫底,平均只有1.180,说明它在编辑时会对无辜区域造成大量误伤。
从任务类型的雷达图来看,没有一个工具能在所有9类编辑任务上都保持一致的高水准。Kling o3 omni和Kling o1的覆盖面最广,在数量编辑、属性编辑、实例编辑和视觉效果编辑上都有明显优势。Grok Imagine则在风格编辑、实例编辑和视觉效果编辑上很强,但在摄像角度和摄像运动编辑上表现平平。这一结果意味着,对于不同类型的视频编辑需求,用户可能需要根据任务类型来选择最合适的工具,而不是无脑选一个"综合第一"的工具。
八、一个标准化的测试题库:VEFX-Bench
除了数据集和评分模型之外,研究团队还发布了一个叫做VEFX-Bench的标准化测试题库,包含300个精心挑选的(原始视频,编辑指令)配对,专门用于不同编辑系统之间的横向对比。
这300道题的设计遵循了几个原则:覆盖尽可能多的编辑类型,确保内容的多样性,以及确保题目的难度分布合理——不能全是简单题,也不能全是极端难题。有了这个统一题库,不同研究团队在评测新工具时可以用同一套题目,结果之间才具有可比性,不会因为题目选择不同而产生偏差。
说到底,这项研究做的事情,本质上是给一个快速发展但缺乏标准的领域,建立了一套经过严格验证的"考试体系"。数据集是题库,评分模型是考官,测试题库是考卷,三者配合,第一次让AI视频编辑的质量评估有了可靠的、多维度的、可复现的衡量方式。
归根结底,当前市场上的AI视频编辑工具最普遍的特点是:视觉上过得去,但语义上靠不住,而且经常改过头。渲染质量已经不是最大的挑战,但精准地按照指令改、同时不误伤无辜,仍然是这个领域尚未完全解决的核心难题。这个发现,对于正在使用或者考虑使用AI视频编辑工具的人来说,也许是一个有用的提醒:当你看到一段AI编辑的视频画质很好,千万别忘了对照原始视频,仔细检查一下它到底有没有真正按你说的改,以及有没有顺带改掉它不该动的地方。
对于有兴趣深入了解研究细节的读者,可以通过arXiv编号2604.16272查阅完整论文。
Q&A
Q1:VEFX-Dataset和其他视频编辑数据集相比有什么特别之处?
A:VEFX-Dataset最核心的区别在于同时满足三个条件:包含实际编辑后的视频结果、使用真人标注而非自动打分、以及将质量分解为指令跟随、渲染质量、编辑独占性三个独立维度。现有数据集通常只满足其中一两个条件,比如有的只有指令没有结果,有的有结果但只给一个综合分,VEFX-Dataset是目前唯一同时具备这三个属性的大规模数据集。
Q2:VEFX-Reward的"编辑独占性"维度是怎么打分的?
A:编辑独占性衡量的是AI在编辑时有没有"误伤"不该动的区域。打分时,标注员会仔细比对原始视频和编辑后视频,统计有多少清晰可见的"非目标区域"发生了变化。没有任何误伤得4分,有一处局部误伤得3分,有两到三处或者一个大面积背景被改动得2分,整个场景被大规模改写得1分。
Q3:Kling o3 omni评测第一,是不是意味着用AI编辑视频首选它?
A:综合分第一并不意味着在所有场景下都最好。评测结果显示,不同工具在不同编辑类型上各有优劣——Kling o3 omni在数量、属性、实例和视觉效果编辑上领先,但Grok Imagine在风格和实例编辑上也很强,而且编辑独占性全场最高。实际使用时,最好根据具体的编辑任务类型来选择工具,而不是只看综合排名。