Day1/5：SkyReels-A3——形随声动，让数字人“说话”的魔法

市场资讯 2025.08.11 09:04

（来源：昆仑万维）

8月11日，昆仑万维正式发布SkyReels-A3模型，基于“DiT（Diffusion Transformer）视频扩散模型+插帧模型进行视频延展+基于强化学习的动作优化+运镜可控”，其能实现任意时长的全模态音频驱动数字人创作。

本视频由SkyReels-A3模型生成

当前SkyReels-A3模型已上线，欢迎登录SkyReels官网体验：

地址

SkyReels-A3项目主页：

https://skyworkai.github.io/skyreels-a3.github.io/

SkyReels 官网地址（登录后在左侧导航栏中选择Talking Avatar工具）：

https://www.skyreels.ai/home SkyReels系列开源模型地址：

https://huggingface.co/Skywork

作为音频驱动（audio-driven）人像视频生成模型，SkyReels-A3就像给任意照片或视频装上“AI声带”：

SkyReels-A3

让一张照片“活”起来：上传一张人像图片，再配段语音，照片里的人就能按这段语音开口说话或唱歌；
创作一段新的视频：上传一张人像图片、配段语音，再给出文字prompt，照片里的人就能按照要求的状态进行表演；
给现有视频“改台词”：可以将原视频的音频换掉，人物会自动对上新的口型、表情和表演，画面依旧连贯。

SkyReels-A3模型在以下四个方向上为用户带来新体验：

Text Prompt（文本提示词输入）支持画面变化；

更自然的动作交互，包括和商品的交互、说话时的手部动作等；

运镜的运用和控制更高级，让艺术场景如音乐/MV等拥有更高的艺术美感；

可以生成单分镜分钟级别视频，支持长达60秒的输出；多分镜可以支持无限时长。

例如我们输入以下图片、音频和prompt，等待几秒之后，SkyReels-A3即可生成口型、表情、动作都自然同步的视频。

案例1

输入图片和音频：

prompt：

The statue speaks calmly and looks towards the camera.

生成的视频如下：

案例2

输入图片和音频：

prompt：

The puppy talks happily to the camera, finally raising its front paw and smiling.

生成的视频如下：

同时，基于对实际应用场景（如广告、直播带货等）的分析，我们发现这些场景不仅需要更长的一致性视频，在特定交互动作上的自然度和清晰度也有待加强。因此我们构造了针对线上直播等场景的数据，对于此类场景中的视频生成进行了特定优化。

案例3

（带货场景）输入图片和音频：

prompt：

A man sits at a table, holding a headphone Box. He gestures and talks as he introduces the product. He occasionally shakes his head and body. Throughout the shot, he maintains a broad smile, showing his teeth and slightly narrowing his eyes, conveying intense happiness and joy. Use a static shot.

生成的视频如下：

此外，在对艺术美感要求更高的场景——如音乐MV、电影片段或演讲视频中——传统数字人只能输出“固定镜头”，画面显得呆板乏味。

为了让镜头语言更加灵动，我们构造了一种基于ControlNet结构的镜头控制模块，通过精细化镜头参数的输入，实现帧级别精准运镜控制。具体来说，镜头控制模块提取参考图的深度信息，配合相机参数，渲染目标运镜轨迹的参考视频，该参考视频随后作为显式运动先验，引导模型逐帧复现精准的运镜效果，生成带有运镜效果的数字人视频。

当前我们预设了8种常见的运镜参数：包含固定镜头 (static)、推镜 (push in)、拉镜 (push out)、左摇(pan left)、右摇(pan right)、抬升、下降(crane down)和手持镜头 (swing)，用户可以根据需要选择相应运镜，并且每个运镜的强度可0–100%连续调节，满足不同需求，生成专业的运镜效果。

案例4

（音乐MV）输入图片和音频：

prompt：

The girl sang affectionately, her body rising and falling slightly as she sang, and her eyelashes fluttered slightly.

生成的视频如下：

案例5

（演讲场景）输入图片和音频：

prompt：

A woman is giving a speech. She is confident, poised, and joyful. Use a static shot.

生成的视频如下：

案例6

（推镜运镜）输入图片和音频：

prompt：

A young woman stands alone, surrounded by tall buildings. Her long hair is tousled gently by the wind.

生成的视频如下：

案例7

（右摇运镜）输入图片和音频：

prompt：

A graceful elderly lady sits at an outdoor garden table, smiling and talking cheerfully to the camera. As she speaks, the camera begins a smooth pan to the right, slowly revealing more of the garden around her. She turns her head slightly to follow the camera’s motion, then gestures outward with one arm, proudly presenting her lush, colorful garden filled with blooming flowers, greenery, and soft sunlight.

生成的视频如下：

案例8

（抬升运镜）输入图片和音频：

prompt：

A confident male model stands alone on a grassy field with low shrubs around and distant hills in the background. The sky is clear and bright. The camera slowly performs a crane down, descending from the sky through the landscape to focus on the model. He looks calmly into the camera and says.

生成的视频如下：

SkyReels-A3基于DiT（Diffusion Transformer）视频扩散模型为基础。

DiT模型因其在图像和视频生成方面的卓越性能而备受关注，它用Transformer结构替代了传统的U-Net，能够更好地捕捉长距离依赖关系。为了高效处理视频数据，SkyReels-A3采用了3D变分自编码器（3D-VAE）来取得隐空间的表征，并后续在隐空间进行生成。3D-VAE能够对视频数据在空间和时间维度上进行压缩，将高维原始视频数据编码成更紧凑的潜在表示。在隐空间处理，大大降低了后续扩散模型的计算负担，同时保留了关键的视觉信息。

SkyReels-A3的性能通过广泛的实验进行了验证，包括现有最先进模型（开源和闭源）的定量和定性比较，充分展示了其在音频驱动视频生成方面的能力。

在定量评估中，SkyReels-A3在不同的音频驱动场景，与先进的开源模型OmniAvatar和闭源模型OmniHuman等方法进行了对比。结果显示，SkyReels-A3在大多数指标上超越了这些方法，尤其是在唇形同步（sync-c和sync-d）方面表现出卓越的性能。同时，我们引入了step蒸馏，采用了更少的步数 (40步减少为4步)，效果几乎没有损失。

图丨Skyreels-A3在不同音频驱动场景的定量评测得分

此外，我们采取了人工评测来更充分的反应模型生成的效果。对于不同模型的生成结果进行盲测，每个评测者都要求对结果进行某个维度的打分，1-3分，分数越高越好。

从下图（左）可以看到，SkyReels-A3对于面部和主体的稳定性，动作自然性都取得了最好的效果，同时在口型同步和人脸取得最好比较接近的结果。右图则是对于retalking进行了评测，结果显示SkyReels-A3在音画同步和视频质量上都有明显的优势。

图左丨音频驱动图像生成人工评测结果；图右丨音频驱动视频生成人工评测结果

从胶片到数码，从 2D 到 3D，影像技术每一次跃迁都带来内容产业的洗牌。

SkyReels-A3正在把“让影像随声而动”这件事变成人人可上手操作的工具：不需要专业影棚、不需要昂贵设备，只要一段声音和一张照片，人人都能创造无限时长、无限可能的数字内容。

让静态照片开口说话、让现有视频改词不换脸、让数字人直播永不掉帧，SkyReels-A3为电影制作、虚拟直播、游戏开发与教育内容创作沟通提供了低门槛、低成本、高保真的 AI 技术制作方案，让个性化、交互式内容的创作前所未有的高效与便捷。

SkyReels-A3，代表声音即影像的可能性，也许下一个刷屏的爆款视频就来自你的灵感。