香港科大、独立研究员等联合团队造出"会说话的AI分身"
(来源:科技行者)
这项研究由香港科技大学、浙江大学、新加坡国立大学、香港中文大学、北京大学及多位独立研究员联合完成,论文以预印本形式于2026年4月26日发布,论文编号为arXiv:2604.23586,有兴趣深入了解的读者可通过此编号查询完整论文。
当你看到一段视频里,一个人在说话,嘴唇的动作和声音完美对上,你有没有想过,这背后的技术有多难?更进一步说,如果要让一台电脑从零开始,只给它一段文字,它就能同时生成一个人说话的声音和脸部视频,让两者天衣无缝地配合,这个挑战几乎像是要让机器同时学会"唱歌"和"跳舞",还得让两者完全同步。这正是这篇论文所要攻克的核心难题。
研究团队构建了一个名为**Talker-T2AV**的系统,它的目标是:给定一段文字,系统能自动生成一段对应的说话人视频,包含同步的语音和面部动作,就像一个AI数字分身在替你"读稿子"。这类技术在数字人播报、影视配音、虚拟助手、语言学习等领域都有巨大潜力。
一、问题的根源:为什么让声音和视频"同步生成"这么难?
在深入了解这套系统之前,有必要先理解这件事难在哪里。
目前业界主流的商业系统,比如OpenAI的Sora 2、Google DeepMind的Veo 3、快手的Kling 3以及字节跳动的Seedance 2.0,都已经能够生成音视频同步的内容。但这些系统的内部实现细节并未对外公开。学术界和开源社区探索出的主流方案,是一种叫做"双分支扩散变换器"(dual-DiT)的架构,简单来说就是:搭建两条并行的生成流水线,一条专门生成视频,一条专门生成音频,两条流水线通过一种叫"交叉注意力"的机制时刻互相"对话",彼此影响。代表性的系统包括MOVA、Ovi和LTX-2等。
这种方法有一个明显的成就:和"先生成音频,再根据音频生成视频"这种串联流程(俗称"级联管线")相比,双分支同步生成的音视频更加协调自然。然而,研究团队发现,这种方案对于专门生成"说话人视频"这个任务来说,其实存在两个结构性缺陷。
第一个缺陷是"过度纠缠"。双分支系统在整个生成过程的每一步都让音频和视频互相干扰,从高层的语义规划(比如"这句话要说什么内容")到底层的信号细节(比如"每一帧的像素颜色"),两者全程耦合在一起。研究团队认为这是一种浪费:音频的声学波形和视频的视觉纹理,其实是两种本质上不同的渲染过程,强行让它们在底层也互相影响,反而会造成不必要的干扰,降低生成效率和质量。
可以用一个生活比喻来理解:作曲家和舞台设计师在创作一部歌剧时,他们确实需要在"剧情走向"和"情感基调"这些高层面上充分沟通,但在具体写乐谱和绘制布景时,两人完全可以各自独立操作,甚至不应该互相干扰——毕竟一个在处理音符,另一个在处理色彩,强行让他们每下一笔都要互相确认,反而会打乱各自的创作节奏。
第二个缺陷是"固定时长"。双分支扩散模型天然是非自回归的——也就是说,它在开始生成之前,就必须先确定要生成多长的内容(比如固定5秒钟)。如果输入的文字内容比较多,5秒钟根本说不完,模型就只能被迫加快语速、截断内容,或者跳过某些词语。这会严重损害生成语音的清晰度和自然度。
正是针对这两个问题,研究团队提出了一套全新的解决方案。
二、核心思路:用"作曲家+演奏家"的分工来重构生成流程
Talker-T2AV的核心设计理念,可以用一个乐团的工作方式来理解。
乐团总指挥负责在高层面协调所有人:这段音乐要表达什么情感,节奏应该怎么走,各种乐器应该如何配合。但具体到小提琴手该如何运弓、钢琴手该如何击键,总指挥并不会介入——这些是各自乐手根据自己的专业技能去独立完成的细节工作。
Talker-T2AV的架构正是遵循了这个逻辑:高层的跨模态协调(音频和视频在语义和节奏层面的配合)由一个共享的"自回归骨干网络"负责,而底层的各自渲染(如何将高层指令转化为具体的声音波形和视频帧)则交给两个独立的"扩散变换器解码头"分别完成。
这套架构分为两个阶段。第一阶段叫做"跨模态建模",由一个共享的自回归语言模型来完成。所谓"自回归",通俗地说就是"一步一步往后生成,每一步都参考前面已经生成的内容"——就像你在说话时,每说下一个词都会参考前面说过的话。第二阶段叫做"模态特定精化",由两个独立的轻量级扩散变换器分别将语言模型的隐藏状态解码成实际的音频帧和视频帧。
三、技术实现的精妙之处:如何让音频和视频在同一个序列里"并肩行走"
在技术实现层面,研究团队面临的第一个挑战是:音频本来是一维的时间序列,而视频传统上是三维的(时间×高度×宽度)。要把两者放进同一个语言模型里处理,就需要一种统一的表示方式。
研究团队的解决方案是:精心选择特征提取器,确保音频和视频都被转化为纯粹的时间序列,并且帧率完全相同——都是每秒25帧。
对于视频,他们采用了一个叫做LIA-X的自监督人像自编码器。LIA-X的工作原理是:给定一张参考人脸图像和一个驱动帧,它能把每一帧的面部动作编码成一个40维的向量。也就是说,视频的每一帧都被压缩成一个40个数字的"面部运动密码",以每秒25帧的速率形成时间序列。
对于音频,研究团队专门设计并训练了一个叫做WhisperX-VAE的音频自编码器。这个编码器借鉴了语音识别领域知名的Whisper Large-v3模型的语义特征,同时结合了音频压缩领域成熟的DAC(Descript Audio Codec)的卷积骨干架构,将音频波形压缩成每帧32维的连续向量,同样以25Hz的帧率输出。这样一来,音频的第t帧和视频的第t帧就天然对应同一个物理时刻,不需要任何额外的对齐操作。
有了这两个对齐的时间序列,研究团队采用了一种叫"逐元素相加"(element-wise summation)的方式,在语言模型的每个时间位置,把音频的嵌入向量和视频的嵌入向量直接加在一起,形成一个联合的"音视频补丁令牌"。这就像把两张透明胶片叠放在一起——既保留了各自的信息,又形成了一个统一的表示。
接下来,这些联合令牌和文本令牌一起被送入自回归骨干网络。文本令牌排在序列最前面作为"前缀"(相当于给系统一个总体指令),之后是逐个时刻的联合音视频令牌。网络以从左到右的方式依次生成每个时刻的隐藏状态,每一步都参考之前所有已生成的内容。
为了降低计算开销,研究团队还引入了"补丁变换器编码器"。这个组件把每连续P帧(实际设置中P=4)压缩成一个单一的补丁令牌,相当于把4帧的信息打包成一个"快递包裹",这样序列长度缩短为原来的四分之一,显著加快了训练和推理速度。
四、语言模型输出的隐藏状态,如何变成实际的声音和视频
自回归骨干网络在每个时间位置生成的隐藏状态,可以理解为一种"高层语义指令":这个时刻大概要说什么音节,脸上应该呈现什么表情,音视频应该如何协调。这些指令是共享的,同时被送给音频头和视频头。
每个扩散变换器头(一个负责音频,一个负责视频)的工作原理类似于"细节填充艺术家":它接收高层指令,同时还参考四类信息——当前时刻的语义锚点(骨干网络输出的隐藏状态加上扩散步骤的时间嵌入)、全局身份信息(音频头使用说话人嵌入,视频头使用第一帧的运动向量以保持人物一致性)、前一个补丁的历史帧(提供短期连续性线索,确保前后帧平滑过渡)、以及当前需要去噪的噪声目标。
训练过程中,两个扩散头使用了一种叫做"最优传输条件流匹配"(OT-CFM)的目标函数,这是近年来扩散模型领域的主流技术之一。同时还引入了"无分类器引导"(CFG)机制,训练时随机丢弃骨干网络的隐藏状态,推理时通过调整引导强度来平衡生成质量和多样性。
此外,骨干网络末端还附加了一个"停止预测器"——一个简单的多层感知机,每生成一步就预测当前是否应该停止。这使得系统能够根据文本内容自动决定生成时长,彻底解决了双分支扩散模型必须预设固定时长的问题。
五、一个模型,三种用法:相加设计带来的意外之喜
逐元素相加的设计不仅仅是一种技术选择,它还带来了一个非常实用的副产品:同一套模型架构,无需任何修改或额外微调,就能完成三种不同的任务。
第一种是"文字生成音视频"(T2AV):给定文字,同时生成对应的语音和面部视频。这是系统的主要设计目标。
第二种是"音频驱动说话头"(A2V):给定一段已有的语音,生成对应的唇形同步面部视频。实现方式是:把已有音频的真实嵌入向量送入骨干网络,而视频部分则自回归地预测。
第三种是"视频配音"(Video Dubbing):给定一段无声的说话人视频和文字脚本,生成匹配的语音。实现方式是:把视频的真实运动嵌入向量送入骨干网络,而音频部分则自回归地预测。
这种统一性在实际部署中意味着极大的便利:不需要为每种任务维护一套独立的模型。
六、训练策略:借助大量纯音频数据来弥补数据不足
高质量的音视频配对数据远比纯音频数据稀缺。研究团队收集了大约100万个说话人音视频片段,经过人脸检测、质量评分和转录等多阶段过滤流程,用于音视频联合生成任务。
但仅靠这100万条数据训练,模型的语音清晰度会受到限制。为此,研究团队设计了一套混合任务训练机制:每个训练样本都携带一个可学习的任务标签嵌入,区分是"纯文字转语音(TTS)"任务还是"文字转音视频(T2AV)"任务。对于TTS样本,视频分支的输入替换为可学习的填充嵌入,视频损失归零。这样就可以把规模更大的语音数据集(比如Emilia数据集,与对比方法UniAVGen使用的相同)混入训练,让骨干网络和语音扩散头见到更多样的文字-发音对,从而显著降低生成语音的错误率,同时还间接提升了视频的唇形精准度——因为骨干网络对文字到发音的映射更准确,自然也给视频扩散头提供了更精确的音素线索。
骨干网络初始化自Qwen3-0.6B,一个轻量级的语言模型。整个系统端到端训练20万步,全局批次大小256,使用AdamW优化器,bfloat16混合精度,学习率1×10??。
七、实验结果:在三项任务上与专用系统相比如何
研究团队在中文和英文两个测试集上(各200段视频)进行了全面评测。中文测试集来自DH-FaceVid-1K数据集,英文测试集来自HDTF和Hallo3数据集。
在"文字生成音视频"任务上,研究团队将Talker-T2AV与五个基于双分支扩散变换器的系统对比:MoVA、Ovi、LTX-2、UniVerse-1(这四个是通用音视频生成系统),以及专门针对说话头生成的UniAVGen。评测指标涵盖音频质量(中文用字符错误率CER,英文用词错误率WER,自然度用UTMOS评分衡量)、视频质量(FID和FVD衡量生成帧的分布逼真度)、以及音视频同步性(使用SyncNet协议,报告置信度C和最小距离D,置信度越高、距离越小代表嘴唇和声音对齐越紧密)。
结果表明,Talker-T2AV在中文测试集上取得了最低的CER(0.148,相比最强基线UniAVGen的0.265大幅降低),在英文测试集上取得了最低的WER(0.055,相比UniAVGen的0.302下降幅度极为显著)。在视频质量方面,FVD指标在中英文测试集上均大幅优于所有基线(中文103.31对比最强基线157.92,英文246.39对比最强基线298.27)。在音视频同步性方面,SyncNet置信度在中英文上分别达到5.470和6.330,均显著高于所有对比系统,同步距离也是所有方法中最小的。
研究团队将语音错误率大幅降低归结为两个互补的原因:其一,独立的音频扩散头避免了音频生成受到视频特征的干扰,专注于语言内容的忠实还原;其二,自回归设计天然支持可变长度输出,消除了双分支固定时长导致的内容截断和加速问题。
在"音频驱动说话头"任务上,Talker-T2AV与FLOAT、EchoMimic、Sonic、Ditto、AniPortrait五个专用系统对比。尽管这并非Talker-T2AV的主要设计目标,系统在FID和FVD上均达到第一或第二名,SyncNet置信度在中英文测试集上均排名第一。这说明联合音视频训练中学到的跨模态对应关系,在音频输入条件下依然有效迁移。
在"视频配音"任务上,使用Chem基准测试(一个记录化学老师讲课的视频配音数据集),与Speak2Dub、StyleDubber、DeepDubber、ProDubber、InstructDub(当时的最新最强系统)对比。Talker-T2AV在四项指标中的三项——情感相似度EMO-SIM、词错误率WER和自然度UTMOS——均取得最佳成绩,仅在时长距离DD上以极小差距位列第二。WER从InstructDub的12.60%大幅降至6.33%,说明生成语音的可懂度有显著提升。
八、消融实验:为什么选择"相加"而不是"交错"或"延迟"
研究团队还做了一系列对照实验,专门比较在自回归序列中,音频和视频令牌应该如何排列。
"音频先、视频后交错排列"(A-V交错)的效果与相加设计基本相当,两者在各项指标上互有优劣,没有一方持续占优。但A-V交错有两个明显缺陷:序列长度翻倍导致推理速度变慢,而且固定了音频在前的顺序,使得视频配音任务(需要视频在前)无法实现。"视频先、音频后交错排列"(V-A交错)则更差——音频质量略有下降,视频质量和同步性都出现显著劣化。研究团队认为这是因为文字到发音的映射主要靠大规模TTS数据学习,把视频令牌排在音频前面,会使视频生成缺乏同时的语音上下文锚定,导致面部动作缺乏准确的语音指导。
"延迟排列"(视频令牌落后音频令牌若干步)的实验揭示了一个有趣的反转规律。在联合生成任务(T2AV)中,无论延迟1步还是3步,各项指标都出现显著下降,延迟3步的下降幅度远大于延迟1步,WER几乎翻倍。这说明联合生成中两种模态必须同步规划,延迟会破坏相互之间的语义一致性。然而,在音频驱动任务(A2V)中,趋势完全反转:延迟3步的效果反而优于延迟1步,延迟3步的同步性甚至超过了T2AV模型。这是因为当音频已知时,让视频分支多"看"几帧的音频历史再生成当前帧,可以获得更丰富的音频上下文,类似于传统级联系统的因果结构。这两组相反的结果清晰地说明:最优的令牌排列方式是任务相关的,对于文字驱动的联合生成,两种模态必须同时规划,逐元素相加是正确选择。
九、系统的局限与未来空间
研究团队也坦诚地指出了当前系统的两个主要局限。第一,自回归骨干网络在连续潜在空间而非离散令牌空间中运行,这意味着每步的预测误差更容易在长序列中积累传播,导致长时长生成的质量逐渐下降。第二,视频质量的上限受制于LIA-X视频运动自编码器的能力,采用表达能力更强的视觉表示将有望进一步提升输出质量。此外,研究团队也预期随着训练数据规模的扩大,系统性能还有继续提升的空间。
说到底,Talker-T2AV这项工作的贡献不只是提出了一个新系统,更是提供了一种新的设计哲学:跨模态的协调应该发生在高层语义规划阶段,而不应该在底层渲染的每一步都互相干扰。这一原则对于未来更多模态的联合生成任务,或许都有参考价值。对于普通用户而言,这意味着未来的数字人播报、AI配音、虚拟主播等应用,有望在语音清晰度、面部自然度和音视频同步性上同时达到更高水准,而且一套模型就能搞定多种场景需求,无需为每种用途单独训练系统。
如果你对技术细节有进一步兴趣,可以通过arXiv编号2604.23586找到完整论文,项目代码和预训练模型权重也在持续开放中。
Q&A
Q1:Talker-T2AV和双分支扩散变换器(dual-DiT)有什么本质区别?
A:双分支扩散变换器在整个生成过程的每一步都让音频和视频互相注意、互相影响,从高层语义到底层像素全程耦合。Talker-T2AV则把这个过程拆分开来:只在高层的自回归骨干网络阶段让两种模态共同规划,底层的具体渲染则由独立的音频头和视频头各自完成,避免了不必要的底层干扰。此外,双分支系统生成长度固定,Talker-T2AV通过自回归设计支持任意长度输出。
Q2:WhisperX-VAE音频编码器为什么要专门设计,不用现成的音频编解码器?
A:现有的离散音频编解码器(如EnCodec、Mimi)输出的是离散令牌,不适合连续潜在空间的自回归扩散预测。现有的连续音频表示(如Mel频谱图)帧率和维度与视频不匹配,难以逐帧对齐。WhisperX-VAE专门设计为25Hz、32维连续向量,与视频的25Hz帧率完全一致,同时融合了Whisper语义特征,确保潜在空间保留语言内容信息。
Q3:Talker-T2AV的逐元素相加设计如何做到一个模型支持三种任务?
A:逐元素相加意味着音视频信息在骨干网络每个位置被合并为一个联合向量。推理时,若某种模态已知(如音频驱动任务中的语音),就直接把该模态的真实嵌入向量输入骨干网络,而让另一个模态(视频)被自回归地预测,只激活对应的扩散头进行解码。整个架构无需任何结构改动或额外微调,通过控制哪个模态使用真实输入、哪个模态使用预测输入,即可在三种任务之间无缝切换。