加州大学伯克利分校出了个"视频生成加速器"

市场资讯 04.30 21:52

（来源：科技行者）

这项由加州大学伯克利分校主导的研究于2026年4月以预印本形式公开发布，论文编号为arXiv:2604.17397，感兴趣的读者可以通过该编号查阅完整原文。研究聚焦于一个让AI视频生成领域头疼已久的难题：怎么让顶级视频生成模型跑得更快，同时不让画面质量大幅下滑。

先说说背景，让你感受一下这个问题有多棘手。现在最先进的AI视频生成模型，动辄要用上百亿个参数的超大型神经网络。以本文实验用的旗舰模型为例，光是模型本身就有140亿个参数，需要顶级显卡才能流畅运行。这就好比开一辆V12发动机的超跑——性能顶尖，但油耗惊人。与此同时，也有小巧得多的13亿参数"轻型车"，跑得飞快，但画面质量会打折扣。研究团队面对的灵魂拷问是：能不能让"轻型车"多跑，"超跑"在关键时刻才出场，最终既省油又保证抵达终点的质量？

这套思路并非凭空捏造，而是借鉴了大型语言模型（也就是ChatGPT这类文字AI）里早已成熟的"推测性解码"技术。在文字AI的世界里，小模型先猜一堆词，大模型再快速验一遍，不对的推翻重来，对的直接采用——效率大幅提升。然而视频和文字有一个根本区别：文字是离散的符号，可以精确比对；视频是连续的像素流，根本没有"这帧对不对"的精确标准可言。这个鸿沟让视频领域的推测性加速长期停留在"理论上可行、实践上没人做成"的阶段。

这支团队给出的方案叫做SDVG（Speculative Decoding for Video Generation，自回归视频生成的推测性解码），它的核心思路可以用一个生活场景来理解：公司招聘时，先让实习生（小模型）写一份工作报告初稿，再由经验丰富的主管（大模型）审核。如果初稿质量过关，主管直接签字发出；如果初稿太差，主管亲自重写。关键在于，审核这一步不需要"逐字核对"，只需要一个资深编辑（图像质量评分器）扫一眼，判断质量高低即可。这个"扫一眼就能判断好坏"的裁判，就是SDVG绕过精确概率比对难题的核心创新。

一、视频是"一块一块"生成的，这很关键

要理解SDVG为什么能工作，得先明白现代自回归视频生成模型是怎么运转的。不像早期视频AI一口气生成所有帧，自回归模型采用的是"分块流式"策略：先生成第一组画面，再以此为基础生成第二组，就像在搭积木，每一块都依赖前一块的位置。整个视频被切分成若干"视频块"，模型通过一个叫做KV缓存（Key-Value Cache）的记忆机制，让后续块能"记住"之前画面的内容，确保整段视频连贯一致。

这种分块结构产生了一个天然优势：每一块视频都是一个相对独立的评判单位。在这个单位上进行"小模型出草稿、大模型审核"的操作，逻辑上非常自然。这就是为什么SDVG的设计思路能落地的结构性前提。

实验中使用的具体模型是基于万象2.1（Wan2.1）架构打造的一对搭档。负责审核的"大模型"目标端是Krea Realtime Video 14B，拥有140亿参数，通过一种叫"自强迫"（Self-Forcing）的训练技术从原版模型蒸馏而来，擅长生成高质量视频。负责打草稿的"小模型"起草端是万象2.1-T2V-1.3B，只有13亿参数，速度快但质量相对较低。两者共享相同的因果注意力骨架，这意味着它们的KV缓存格式兼容，可以无缝对接——这是整个框架能够运作的技术基础。

每段视频被分为9个视频块，每块对应3个潜空间帧，最终解码产生像素帧，分辨率为832×480。无论是大模型还是小模型，每个视频块都只需要跑4步去噪，遵循固定的时间步表，以bfloat16精度运行，引导比例3.0。这些参数设定保证了两个模型的运行方式高度一致，便于公平比较和无缝衔接。

二、谁来当"质检员"，怎么打分

SDVG解决"视频没有精确标准"这个难题的方式，是引入一个现成的图像质量评分工具：ImageReward。这是一个专门用来评判文字生成图像质量的模型，它被训练成能模拟人类对图片的审美偏好——画面清晰、内容与描述吻合、没有奇怪的扭曲变形，就能得到较高的分数；反之则低分。

每次小模型生成一个视频块的候选结果后，这个候选块会先经过VAE解码器（一种把压缩的潜空间数据还原成真实像素图像的工具，类似于解压缩软件）转换成可看的图片帧，再由ImageReward对每一帧打分。最终决定这个视频块命运的，是一个叫做"最差帧聚合"的策略：取所有帧中分数最低的那一帧作为整个块的代表分数。

为什么要取最低分而不是平均分？道理很直观。一段3帧的视频块，如果前两帧很好、最后一帧出现了奇怪的形变或模糊，观众看视频时一定会注意到那一帧的瑕疵，造成闪烁感。如果用平均分，两帧高分会把那一帧的低分"稀释"掉，质检员误判通过，最终输出的视频就会有一帧明显穿帮。用最低分则相当于"一票否决制"——只要有一帧不过关，整个块就要返工。

打完分之后，会将这个块的得分与一个固定阈值τ（tau，一个可以手动调整的数字）进行比较。分数高于τ，说明小模型这次发挥不错，直接采用，接受。分数低于τ，说明草稿质量不达标，丢弃，让大模型重新生成这个块，拒绝。被接受的块会提交到大模型的KV缓存中，成为后续块生成的上下文基础。被拒绝的块则由大模型从相同的初始噪声出发重新生成，保证画面内容的一致性。

有一个细节值得注意：VAE解码的中间状态在草稿评分之前会被克隆保存，如果这个块最终被拒绝，就会恢复到克隆的状态，而不是用草稿解码后的状态继续推进。这个操作确保了时间连贯性——已接受的块和被拒绝后重生成的块之间，不会因为解码顺序混乱而出现画面跳变。

三、"第一块必须由大模型亲自来"，这个规定有点讲究

SDVG还有一条特殊规定：无论小模型生成的第一个视频块质量有多高，都必须强制拒绝，交由大模型重新生成。这条规则乍听起来有点浪费，但背后的道理非常扎实。

第一个视频块是整段视频的"开场定调"。它不仅决定了画面的整体色调、光线风格，还确立了主要角色或场景的构图和位置。由于第一块没有任何前序视频块作为参考，它完全依赖文字提示来生成，这正是小模型最容易出错的场景——在没有视觉上下文的情况下，小模型更可能产生与提示不符的画面布局或风格。

更致命的是，后续所有视频块都会通过KV缓存"继承"第一块的视觉风格和构图。如果第一块出了问题，比如场景里的建筑位置放错了、主角的服装颜色搞错了，后续8个块都会在这个错误基础上延续，最终整段视频都会跑偏。大模型重做一次第一块，相当于给整段视频打好地基，后续无论哪些块被小模型接手，都能在正确的视觉框架内延展。

这个设计的成本是固定的：无论视频多长、阈值设得多宽松，第一块必然要消耗一次大模型的计算资源。但这个固定成本换来的收益是整段视频的构图稳定性，在研究团队看来是完全值得的。

四、一个数字τ，拨动质量与速度的天平

SDVG整个框架里最优雅的设计可能就是这个τ了。它是一个单一的固定数字，控制着整段视频中有多少块会被小模型"承包"，有多少块会被大模型接管。

τ设得严格（比如–0.7），意味着只有小模型表现非常优秀的块才会被接受，大部分块还是要大模型来做，质量接近大模型单跑，但加速效果有限。τ设得宽松（比如–2.5），意味着只要不是极其糟糕的块都被接受，小模型承包的比例大幅上升，速度提升明显，但质量也会有所下滑。

这就像一个音响的音量旋钮：拨大，声音更响（速度更快）；拨小，声音更细腻（质量更高）。使用者可以根据自己的需求在这两者之间找到合适的平衡点，无需重新训练任何模型，无需修改任何代码，拨一下τ就搞定。这种"一个旋钮管全局"的设计极大地降低了实际部署的门槛。

五、实验数据说话：效果到底怎么样

研究团队在1003条电影级视频提示词上进行了全面测试，这些提示词来自MovieGenVideoBench，涵盖风景、动物、人物活动、电影场景等多种类别，堪称一个相当全面的压力测试场。所有视频均以832×480分辨率生成，实验在两块NVIDIA RTX A6000显卡（各48GB显存）上进行。

质量评估采用的是VisionReward——一个基于视觉问答的综合评分系统，会从视觉质量、时间一致性、运动自然度、文字与视频对齐等29个维度打分，得分越高越好。效率则用每段视频的实际生成时间（秒）来衡量。

基准线有两条：大模型单跑（Target-only）代表最高质量，每段视频平均耗时97秒，VisionReward得分0.0788；小模型单跑（Draft-only）代表最快速度，每段视频平均只需25.7秒，VisionReward得分0.0644，比大模型低了约18%。

SDVG在不同τ值下展现出一条平滑的"帕累托曲线"（即质量与速度之间的最优权衡曲线）。在最保守的τ=–0.7时，每段视频平均耗时60.9秒，比大模型单跑快了1.59倍，VisionReward得分0.0773，保留了大模型98.1%的质量，同时比小模型单跑高出约20%。随着τ逐步放宽到–0.8、–0.9、–1.0，速度继续提升（分别达到1.66倍、1.66倍、1.69倍），质量下滑极为缓慢（分别保留97.6%、97.8%、96.95%）。继续放宽到τ=–1.5、–2.0、–2.5，速度分别达到1.88倍、2.05倍、2.09倍，质量保留率也依然维持在96.1%、95.9%、95.7%，全程比小模型单跑高出17%以上。

有意思的是，从τ=–1.5往后，速度提升越来越小，但质量损失也越来越慢。这个现象说明，绝大多数对质量有显著影响的视频块，它们的ImageReward得分都在–1.5以上。换句话说，大多数"关键帧"小模型本来就能做好，即使把τ放宽很多，也只是多接受了一些原本就还不错的块，边际效益自然越来越低。

六、如果不用质量评分，随机乱猜行不行

为了验证ImageReward质检员确实有用，研究团队做了一个"随机路由"的对照实验：不看分数，完全随机决定哪些块由小模型承包、哪些由大模型重做，但保持整体接受率和SDVG相同（约70%）。

结果很能说明问题。随机路由的VisionReward只有0.0706，不仅远低于SDVG的0.0773，甚至比"强制第一块用大模型+随机路由"的0.0771还低——后者至少保住了场景构图，但随机接受的块里混入了太多质量差的，还是把整体分数拉低了。没有质检员，小模型的劣质草稿会堂而皇之地混进最终输出，整体质量就像让实习生随机签发文件，效果可想而知。

与此同时，研究团队还比较了"最差帧聚合"和"平均帧聚合"两种打分策略。以τ=–0.7为参考点，最差帧聚合以73.1%的接受率取得了0.0773的VisionReward；而平均帧聚合在相近条件下（τ=–0.2，接受率70.2%）只有0.0767，质量更低，速度还更慢。即便将平均帧聚合的阈值放宽到τ=–0.7（接受率78.4%），也只得到0.0755，比最差帧聚合差了不少。这印证了一点：一帧坏掉就足以毁掉整个视频块的观感，平均分会替那一帧"洗白"，最低分才能真正揪出它。

七、这套方案还有哪些没解决的问题

SDVG并不完美，研究团队也坦诚地指出了三个局限。

第一个问题是"分布漂移"。传统文字AI的推测性解码有一个数学保证：最终输出的分布和大模型单跑完全一致，不会有任何质量损失。SDVG做不到这一点，因为被接受的小模型输出本质上不等于大模型输出，只是质量相近。阈值越严格，漂移越小，但速度提升也越有限，这是一个无法完全消除的根本性权衡。

第二个问题是ImageReward本身的局限。这个评分工具是为静态图片设计的，它对每一帧独立打分，完全不考虑帧与帧之间的运动流畅性和时间一致性。如果一个视频块的每一帧单独看都还不错，但帧间存在抖动或运动不连贯，ImageReward可能无法识别。一个专门为视频块质量设计的评分模型会更理想，但目前尚未开发。

第三个问题是被拒绝的草稿会浪费计算资源。每次小模型生成一个候选块都需要跑完整的4步去噪加VAE解码，如果最终被拒绝，这些计算就白费了。特别是第一块，无论质量如何都会被强制拒绝，小模型的那次运算纯属徒劳。研究团队提出了批量化或推测性VAE解码等潜在优化方向，但尚未在本文中实现。

归根结底，SDVG做了一件听起来简单但实现起来颇费心思的事：让便宜的小模型多干活，昂贵的大模型专门处理小模型搞不定的部分，用一个"质检员"来做中间的把关人。这套流程完全不需要修改任何模型结构，不需要重新训练任何东西，拿来就能用，调一个数字就能在速度和质量之间找到自己想要的平衡。

对于普通用户来说，这意味着未来用AI生成视频时，可能不再需要等上那么久。顶级质量的视频生成速度或许能提升到接近两倍，让原本需要一分多钟的生成缩短到不到一分钟，而画面质量几乎感知不到差异。更长远的影响在于，这套框架为"推测性加速"在视频生成领域打开了一扇门——后续研究者可以在此基础上引入更好的视频质量评分模型、尝试更复杂的路由策略、或者把这套框架和其他加速技术（如步骤蒸馏）叠加使用，进一步压榨生成速度的上限。

对这个方向感兴趣的读者，可以通过论文编号arXiv:2604.17397查阅完整原文，里面有更详尽的实验设置和技术细节。

Q&A

Q1：SDVG是什么技术，和普通视频生成有什么区别？

A：SDVG是一种针对自回归视频生成的加速框架，核心思路是用一个参数量小、速度快的小模型先生成视频草稿，再用图像质量评分工具判断草稿是否合格。合格的草稿直接采用，不合格的才让大模型重新生成。相比普通方法全程依赖大模型，SDVG能在几乎不损失画质的前提下，将生成速度提升约1.59倍至2.09倍。

Q2：SDVG里的τ（阈值）是什么，应该怎么设置？

A：τ是控制质量与速度平衡的核心参数，相当于一个"质检严格程度"的旋钮。τ设得越严格（数字越接近0，如–0.7），只有高质量草稿才会被接受，最终视频质量高但速度提升较小（约1.59倍）；τ设得越宽松（如–2.5），更多草稿会被接受，速度提升更大（约2.09倍），但质量会有轻微下滑。实验显示τ在–0.7到–1.0之间是质量与速度最平衡的区间。

Q3：SDVG为什么要对第一个视频块强制重新生成？

A：第一个视频块决定了整段视频的场景构图、主体位置和视觉风格，后续所有块都会通过KV缓存继承这些特征。由于第一块没有任何前序画面作为参考，小模型在这一步最容易出错，一旦出现构图错误，会沿着KV缓存传导到后续所有块，造成全程跑偏。因此强制由大模型重做第一块，相当于给整段视频打好稳固的视觉地基。