新浪科技 股票

加州大学伯克利分校出了个"视频生成加速器"

市场资讯 04.30 21:52

(来源:科技行者)

这项由加州大学伯克利分校主导的研究于2026年4月以预印本形式公开发布,论文编号为arXiv:2604.17397,感兴趣的读者可以通过该编号查阅完整原文。研究聚焦于一个让AI视频生成领域头疼已久的难题:怎么让顶级视频生成模型跑得更快,同时不让画面质量大幅下滑。

先说说背景,让你感受一下这个问题有多棘手。现在最先进的AI视频生成模型,动辄要用上百亿个参数的超大型神经网络。以本文实验用的旗舰模型为例,光是模型本身就有140亿个参数,需要顶级显卡才能流畅运行。这就好比开一辆V12发动机的超跑——性能顶尖,但油耗惊人。与此同时,也有小巧得多的13亿参数"轻型车",跑得飞快,但画面质量会打折扣。研究团队面对的灵魂拷问是:能不能让"轻型车"多跑,"超跑"在关键时刻才出场,最终既省油又保证抵达终点的质量?

这套思路并非凭空捏造,而是借鉴了大型语言模型(也就是ChatGPT这类文字AI)里早已成熟的"推测性解码"技术。在文字AI的世界里,小模型先猜一堆词,大模型再快速验一遍,不对的推翻重来,对的直接采用——效率大幅提升。然而视频和文字有一个根本区别:文字是离散的符号,可以精确比对;视频是连续的像素流,根本没有"这帧对不对"的精确标准可言。这个鸿沟让视频领域的推测性加速长期停留在"理论上可行、实践上没人做成"的阶段。

这支团队给出的方案叫做SDVG(Speculative Decoding for Video Generation,自回归视频生成的推测性解码),它的核心思路可以用一个生活场景来理解:公司招聘时,先让实习生(小模型)写一份工作报告初稿,再由经验丰富的主管(大模型)审核。如果初稿质量过关,主管直接签字发出;如果初稿太差,主管亲自重写。关键在于,审核这一步不需要"逐字核对",只需要一个资深编辑(图像质量评分器)扫一眼,判断质量高低即可。这个"扫一眼就能判断好坏"的裁判,就是SDVG绕过精确概率比对难题的核心创新。

一、视频是"一块一块"生成的,这很关键

要理解SDVG为什么能工作,得先明白现代自回归视频生成模型是怎么运转的。不像早期视频AI一口气生成所有帧,自回归模型采用的是"分块流式"策略:先生成第一组画面,再以此为基础生成第二组,就像在搭积木,每一块都依赖前一块的位置。整个视频被切分成若干"视频块",模型通过一个叫做KV缓存(Key-Value Cache)的记忆机制,让后续块能"记住"之前画面的内容,确保整段视频连贯一致。

这种分块结构产生了一个天然优势:每一块视频都是一个相对独立的评判单位。在这个单位上进行"小模型出草稿、大模型审核"的操作,逻辑上非常自然。这就是为什么SDVG的设计思路能落地的结构性前提。

实验中使用的具体模型是基于万象2.1(Wan2.1)架构打造的一对搭档。负责审核的"大模型"目标端是Krea Realtime Video 14B,拥有140亿参数,通过一种叫"自强迫"(Self-Forcing)的训练技术从原版模型蒸馏而来,擅长生成高质量视频。负责打草稿的"小模型"起草端是万象2.1-T2V-1.3B,只有13亿参数,速度快但质量相对较低。两者共享相同的因果注意力骨架,这意味着它们的KV缓存格式兼容,可以无缝对接——这是整个框架能够运作的技术基础。

每段视频被分为9个视频块,每块对应3个潜空间帧,最终解码产生像素帧,分辨率为832×480。无论是大模型还是小模型,每个视频块都只需要跑4步去噪,遵循固定的时间步表,以bfloat16精度运行,引导比例3.0。这些参数设定保证了两个模型的运行方式高度一致,便于公平比较和无缝衔接。

二、谁来当"质检员",怎么打分

SDVG解决"视频没有精确标准"这个难题的方式,是引入一个现成的图像质量评分工具:ImageReward。这是一个专门用来评判文字生成图像质量的模型,它被训练成能模拟人类对图片的审美偏好——画面清晰、内容与描述吻合、没有奇怪的扭曲变形,就能得到较高的分数;反之则低分。

每次小模型生成一个视频块的候选结果后,这个候选块会先经过VAE解码器(一种把压缩的潜空间数据还原成真实像素图像的工具,类似于解压缩软件)转换成可看的图片帧,再由ImageReward对每一帧打分。最终决定这个视频块命运的,是一个叫做"最差帧聚合"的策略:取所有帧中分数最低的那一帧作为整个块的代表分数。

为什么要取最低分而不是平均分?道理很直观。一段3帧的视频块,如果前两帧很好、最后一帧出现了奇怪的形变或模糊,观众看视频时一定会注意到那一帧的瑕疵,造成闪烁感。如果用平均分,两帧高分会把那一帧的低分"稀释"掉,质检员误判通过,最终输出的视频就会有一帧明显穿帮。用最低分则相当于"一票否决制"——只要有一帧不过关,整个块就要返工。

打完分之后,会将这个块的得分与一个固定阈值τ(tau,一个可以手动调整的数字)进行比较。分数高于τ,说明小模型这次发挥不错,直接采用,接受。分数低于τ,说明草稿质量不达标,丢弃,让大模型重新生成这个块,拒绝。被接受的块会提交到大模型的KV缓存中,成为后续块生成的上下文基础。被拒绝的块则由大模型从相同的初始噪声出发重新生成,保证画面内容的一致性。

有一个细节值得注意:VAE解码的中间状态在草稿评分之前会被克隆保存,如果这个块最终被拒绝,就会恢复到克隆的状态,而不是用草稿解码后的状态继续推进。这个操作确保了时间连贯性——已接受的块和被拒绝后重生成的块之间,不会因为解码顺序混乱而出现画面跳变。

三、"第一块必须由大模型亲自来",这个规定有点讲究

SDVG还有一条特殊规定:无论小模型生成的第一个视频块质量有多高,都必须强制拒绝,交由大模型重新生成。这条规则乍听起来有点浪费,但背后的道理非常扎实。

第一个视频块是整段视频的"开场定调"。它不仅决定了画面的整体色调、光线风格,还确立了主要角色或场景的构图和位置。由于第一块没有任何前序视频块作为参考,它完全依赖文字提示来生成,这正是小模型最容易出错的场景——在没有视觉上下文的情况下,小模型更可能产生与提示不符的画面布局或风格。

更致命的是,后续所有视频块都会通过KV缓存"继承"第一块的视觉风格和构图。如果第一块出了问题,比如场景里的建筑位置放错了、主角的服装颜色搞错了,后续8个块都会在这个错误基础上延续,最终整段视频都会跑偏。大模型重做一次第一块,相当于给整段视频打好地基,后续无论哪些块被小模型接手,都能在正确的视觉框架内延展。

这个设计的成本是固定的:无论视频多长、阈值设得多宽松,第一块必然要消耗一次大模型的计算资源。但这个固定成本换来的收益是整段视频的构图稳定性,在研究团队看来是完全值得的。

四、一个数字τ,拨动质量与速度的天平

SDVG整个框架里最优雅的设计可能就是这个τ了。它是一个单一的固定数字,控制着整段视频中有多少块会被小模型"承包",有多少块会被大模型接管。

τ设得严格(比如–0.7),意味着只有小模型表现非常优秀的块才会被接受,大部分块还是要大模型来做,质量接近大模型单跑,但加速效果有限。τ设得宽松(比如–2.5),意味着只要不是极其糟糕的块都被接受,小模型承包的比例大幅上升,速度提升明显,但质量也会有所下滑。

这就像一个音响的音量旋钮:拨大,声音更响(速度更快);拨小,声音更细腻(质量更高)。使用者可以根据自己的需求在这两者之间找到合适的平衡点,无需重新训练任何模型,无需修改任何代码,拨一下τ就搞定。这种"一个旋钮管全局"的设计极大地降低了实际部署的门槛。

五、实验数据说话:效果到底怎么样

研究团队在1003条电影级视频提示词上进行了全面测试,这些提示词来自MovieGenVideoBench,涵盖风景、动物、人物活动、电影场景等多种类别,堪称一个相当全面的压力测试场。所有视频均以832×480分辨率生成,实验在两块NVIDIA RTX A6000显卡(各48GB显存)上进行。

质量评估采用的是VisionReward——一个基于视觉问答的综合评分系统,会从视觉质量、时间一致性、运动自然度、文字与视频对齐等29个维度打分,得分越高越好。效率则用每段视频的实际生成时间(秒)来衡量。

基准线有两条:大模型单跑(Target-only)代表最高质量,每段视频平均耗时97秒,VisionReward得分0.0788;小模型单跑(Draft-only)代表最快速度,每段视频平均只需25.7秒,VisionReward得分0.0644,比大模型低了约18%。

SDVG在不同τ值下展现出一条平滑的"帕累托曲线"(即质量与速度之间的最优权衡曲线)。在最保守的τ=–0.7时,每段视频平均耗时60.9秒,比大模型单跑快了1.59倍,VisionReward得分0.0773,保留了大模型98.1%的质量,同时比小模型单跑高出约20%。随着τ逐步放宽到–0.8、–0.9、–1.0,速度继续提升(分别达到1.66倍、1.66倍、1.69倍),质量下滑极为缓慢(分别保留97.6%、97.8%、96.95%)。继续放宽到τ=–1.5、–2.0、–2.5,速度分别达到1.88倍、2.05倍、2.09倍,质量保留率也依然维持在96.1%、95.9%、95.7%,全程比小模型单跑高出17%以上。

有意思的是,从τ=–1.5往后,速度提升越来越小,但质量损失也越来越慢。这个现象说明,绝大多数对质量有显著影响的视频块,它们的ImageReward得分都在–1.5以上。换句话说,大多数"关键帧"小模型本来就能做好,即使把τ放宽很多,也只是多接受了一些原本就还不错的块,边际效益自然越来越低。

六、如果不用质量评分,随机乱猜行不行

为了验证ImageReward质检员确实有用,研究团队做了一个"随机路由"的对照实验:不看分数,完全随机决定哪些块由小模型承包、哪些由大模型重做,但保持整体接受率和SDVG相同(约70%)。

结果很能说明问题。随机路由的VisionReward只有0.0706,不仅远低于SDVG的0.0773,甚至比"强制第一块用大模型+随机路由"的0.0771还低——后者至少保住了场景构图,但随机接受的块里混入了太多质量差的,还是把整体分数拉低了。没有质检员,小模型的劣质草稿会堂而皇之地混进最终输出,整体质量就像让实习生随机签发文件,效果可想而知。

与此同时,研究团队还比较了"最差帧聚合"和"平均帧聚合"两种打分策略。以τ=–0.7为参考点,最差帧聚合以73.1%的接受率取得了0.0773的VisionReward;而平均帧聚合在相近条件下(τ=–0.2,接受率70.2%)只有0.0767,质量更低,速度还更慢。即便将平均帧聚合的阈值放宽到τ=–0.7(接受率78.4%),也只得到0.0755,比最差帧聚合差了不少。这印证了一点:一帧坏掉就足以毁掉整个视频块的观感,平均分会替那一帧"洗白",最低分才能真正揪出它。

七、这套方案还有哪些没解决的问题

SDVG并不完美,研究团队也坦诚地指出了三个局限。

第一个问题是"分布漂移"。传统文字AI的推测性解码有一个数学保证:最终输出的分布和大模型单跑完全一致,不会有任何质量损失。SDVG做不到这一点,因为被接受的小模型输出本质上不等于大模型输出,只是质量相近。阈值越严格,漂移越小,但速度提升也越有限,这是一个无法完全消除的根本性权衡。

第二个问题是ImageReward本身的局限。这个评分工具是为静态图片设计的,它对每一帧独立打分,完全不考虑帧与帧之间的运动流畅性和时间一致性。如果一个视频块的每一帧单独看都还不错,但帧间存在抖动或运动不连贯,ImageReward可能无法识别。一个专门为视频块质量设计的评分模型会更理想,但目前尚未开发。

第三个问题是被拒绝的草稿会浪费计算资源。每次小模型生成一个候选块都需要跑完整的4步去噪加VAE解码,如果最终被拒绝,这些计算就白费了。特别是第一块,无论质量如何都会被强制拒绝,小模型的那次运算纯属徒劳。研究团队提出了批量化或推测性VAE解码等潜在优化方向,但尚未在本文中实现。

归根结底,SDVG做了一件听起来简单但实现起来颇费心思的事:让便宜的小模型多干活,昂贵的大模型专门处理小模型搞不定的部分,用一个"质检员"来做中间的把关人。这套流程完全不需要修改任何模型结构,不需要重新训练任何东西,拿来就能用,调一个数字就能在速度和质量之间找到自己想要的平衡。

对于普通用户来说,这意味着未来用AI生成视频时,可能不再需要等上那么久。顶级质量的视频生成速度或许能提升到接近两倍,让原本需要一分多钟的生成缩短到不到一分钟,而画面质量几乎感知不到差异。更长远的影响在于,这套框架为"推测性加速"在视频生成领域打开了一扇门——后续研究者可以在此基础上引入更好的视频质量评分模型、尝试更复杂的路由策略、或者把这套框架和其他加速技术(如步骤蒸馏)叠加使用,进一步压榨生成速度的上限。

对这个方向感兴趣的读者,可以通过论文编号arXiv:2604.17397查阅完整原文,里面有更详尽的实验设置和技术细节。

Q&A

Q1:SDVG是什么技术,和普通视频生成有什么区别?

A:SDVG是一种针对自回归视频生成的加速框架,核心思路是用一个参数量小、速度快的小模型先生成视频草稿,再用图像质量评分工具判断草稿是否合格。合格的草稿直接采用,不合格的才让大模型重新生成。相比普通方法全程依赖大模型,SDVG能在几乎不损失画质的前提下,将生成速度提升约1.59倍至2.09倍。

Q2:SDVG里的τ(阈值)是什么,应该怎么设置?

A:τ是控制质量与速度平衡的核心参数,相当于一个"质检严格程度"的旋钮。τ设得越严格(数字越接近0,如–0.7),只有高质量草稿才会被接受,最终视频质量高但速度提升较小(约1.59倍);τ设得越宽松(如–2.5),更多草稿会被接受,速度提升更大(约2.09倍),但质量会有轻微下滑。实验显示τ在–0.7到–1.0之间是质量与速度最平衡的区间。

Q3:SDVG为什么要对第一个视频块强制重新生成?

A:第一个视频块决定了整段视频的场景构图、主体位置和视觉风格,后续所有块都会通过KV缓存继承这些特征。由于第一块没有任何前序画面作为参考,小模型在这一步最容易出错,一旦出现构图错误,会沿着KV缓存传导到后续所有块,造成全程跑偏。因此强制由大模型重做第一块,相当于给整段视频打好稳固的视觉地基。

加载中...