3D生成告别「穿模」噩梦!VASTx清华将蒙皮权重Token化,统一生成骨骼与权重,GRPO微调形变平滑
创事记
VAST张嘉鹏 投稿
量子位 | 公众号 QbitAI
3D模型生成容易,让它“动起来”却很难——骨骼不准、蒙皮扭曲,一动就穿模。
SkinTokens换了个思路:把连续的蒙皮权重“离散化”成一串Token,让骨骼和蒙皮在同一个自回归框架里生成,再拿GRPO强化学习打磨。结果蒙皮准确率比现有方法提升近一倍,面对非常规模型也更稳了。
随着3D生成模型的快速发展,生成精美的3D静态模型变得越来越容易。但要让这些模型在游戏或动画中动起来,还需要经过一道复杂的工序——绑定(Rigging),这包含生成骨骼(Skeleton)和绘制蒙皮权重(Skinning)。
在传统的自动化管线中,现有的AI绑定算法往往将“骨骼生成”和“蒙皮预测”拆分为两个孤立的模型。这导致生成的骨骼缺乏对表面蒙皮形变的感知,而预测蒙皮时又只能基于固定的骨架去推算。当模型进行较大动作时,经常会出现体积塌陷、穿模拉扯等问题,难以达到实际动画生产线的要求。
近期,一项名为SkinTokens的研究提出了一种新思路。该工作将连续的蒙皮权重预测转化为“离散Token生成”问题,构建了统一的自回归生成框架TokenRig。此外,研究还引入了GRPO强化学习算法进行模型优化,显著提升了AI自动绑定的精度,使其能够更好地服务于实际的动画生产。
△ 上图展示了SkinTokens如何将静态的3D模型一键转化为高质量、可直接驱动的动画资产
核心痛点:传统AI蒙皮算法的局限
在动画管线中,蒙皮权重(Skinning Weights)决定了骨骼在运动时,模型表面的顶点该跟随哪个骨骼移动以及移动的比例。这是一个处于0到1之间的连续值。
以往的AI算法试图通过高维回归(如基于图神经网络)直接预测这个矩阵。但高维连续空间较为庞大,AI难以准确学习这种高度稀疏又关键的权重分布。结果往往是预测出的蒙皮权重边界模糊,绑定到动画后,模型的关节处(如手肘、膝盖)容易发生不自然的扭曲和折叠,难以满足实际动画蒙皮绘制的标准。
解决思路:SkinTokens——将蒙皮离散化
针对连续回归的难点,研究团队提出了一种新方法:将蒙皮权重离散化(Tokenize)。
这是SkinTokens的核心机制:
1. 采用有限标量量化变分自编码器(FSQ-CVAE)进行训练。
2. 将原本庞大、连续且稀疏的蒙皮权重矩阵,压缩为一小段离散的Token序列。
3. 通过这一步,传统的“高维连续回归”任务被转化为了类似语言模型的“序列预测”问题。
△ t-SNE可视化结果显示,SkinTokens能够有效地在离散潜空间中捕捉并聚类不同的蒙皮权重分布特征
TokenRig:骨骼与蒙皮的统一自回归框架
基于SkinTokens这种离散表达,研究团队进一步提出了统一自回归(Autoregressive)框架TokenRig。
在TokenRig中,骨骼和蒙皮不再是独立的模块,整个绑定过程被建模为一个序列生成过程:前半部分为骨架的拓扑结构和位置(Skeleton Sequence),后半部分为对应的蒙皮权重(SkinTokens)。
二者在同一个Transformer模型中进行顺序生成,使模型能够更好地理解“骨骼位置”与“皮肤形变”之间的关联。这种统一建模方式提升了生成的骨架与表面几何的契合度,为生成高质量的动画资产提供了技术保障。实验数据显示,SkinTokens使蒙皮准确率相比现有方法提升了98%~133%。
强化学习微调:引入GRPO增强泛化能力
在强化学习领域,GRPO(Group Relative Policy Optimization)算法近期在推理大模型中表现出色。TokenRig同样引入了该强化学习算法来进行模型的自我迭代与完善。
由于包含高质量“骨骼+蒙皮”标注的3D数据集相对稀缺,仅依靠监督学习的模型在面对非常规的“野生模型”(Out-of-Distribution assets)时容易出现偏差。为此,研究团队设计了四项奖励函数(Reward Functions):
体积关节覆盖率(Volumetric Joint Coverage)
骨骼-网格包围度(Bone-Mesh Containment)
蒙皮覆盖率与稀疏度(Skinning Coverage and Sparsity)
形变平滑度(Deformation Smoothness)
借助这些基于几何与物理规则的奖励函数,TokenRig使用GRPO在无标注的3D数据集上进行了自我完善。经过强化学习微调后,TokenRig的骨骼预测性能提升了17%~22%,在面对复杂或非常规的3D资产时表现出了更强的泛化能力,其形变也更为平滑自然。
△ 经过GRPO强化学习后,模型在未见过的复杂资产上表现出了更好的泛化性和更自然的形变
结语:助力3D动画自动生产
长期以来,3D内容的生成与实际动画驱动之间存在着断层。自动绑定和蒙皮质量往往成为阻碍AI生成模型落地的一大瓶颈。
SkinTokens与TokenRig框架通过“蒙皮Token化”、统一自回归生成以及强化学习等技术手段,提升了AI自动化绑定的准确性和稳定性,使其具备了高保真、抗扭曲且可直接用于动画生产的潜力。这一工作为3D创作者和游戏开发者优化工作流提供了一种有价值的新方案。
了解更多技术细节与动画演示,可访问项目。
主页:
https://zjp-shadow.github.io/works/SkinTokens/
代码:
https://github.com/VAST-AI-Research/SkinTokens
Demo:
https://huggingface.co/spaces/VAST-AI/SkinTokens