新浪科技

重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型

机器之心Pro

关注

AI 生成 3D 模型最难的一关,终于被搞定了。

无需任何训练数据,只需对着模型描述一句话,如「一个做作业的香蕉人」:

或是「一只戴着 VR 眼镜的猫」:

就能生成符合描述的带有高质量纹理贴图的 3D 场景。不仅如此,还能对已有的 3D 模型进行精细化贴图。

这是港大与清华大学联合 3D 生成明星公司 VAST AI 研发的一种新方法,它能够从复杂的文本描述中,直接生成富有想象力的高质量 3D 模型。

目前,这项研究成果已被人工智能顶级会议 ICLR 2024 收录,代码也已经开源。对这项研究感兴趣的小伙伴,可以戳下方项目主页和论文地址查看

  • 论文地址:https://arxiv.org/abs/2310.19415

  • 项目地址:https://xinyu-andy.github.io/Classifier-Score-Distillation

  • 代码地址:https://github.com/CVMI-Lab/Classifier-Score-Distillation

  • 论文标题:Text-to-3D with Classifier Score Distillation

所以它究竟是如何做到的?了解新方法是什么之前,我们先来了解目前已有的方法存在什么问题。

传统生成模型面临的困境

在交互式游戏、电影艺术、增强 / 虚拟现实以及仿真技术等多个应用场景中,高质量的三维资产创建一直是一个重要且具有挑战性的问题。

目前大多数生成模型都依赖于本领域的大量高质量数据做训练,但在 3D 领域,这样的数据集非常匮乏。这导致目前基于 3D 数据训练的 3D 生成模型的效果还无法复刻图像领域的成功。

基于 2D 先验的 3D 生成方法

为了解决这一问题,Google 的 Dream Fusion 首次提出 Score Distillation Sampling(SDS)的方法,证明了可以通过预训练的二维扩散模型生成高质量和复杂的三维结果。这一范式的优势在于无需任何 3D 数据预训练即可生成 3D 模型,这一架构也一直被研究者们和后续工作所沿用,例如 Nvidia 的 Magic3D 等。其核心理论在于通过激励其渲染图像移向文本条件下的高概率密度区域,来反向生成 3d 场景。

尽管基于 SDS 的方法取得了令人瞩目的成果,然而,本文的研究者们发现,基于 SDS 的方法在实际实现中总是与理论出现一些差距,主要是因为普遍依赖于 Classifier-Free Guidance (CFG)。

在使用 CFG 时,推动优化的梯度实际上包含两个部分:一是数据密度的梯度,二是后验函数的梯度。其中前者对应于 SDS 理论中的关键部分,而后者仅仅是在实验过程中才加入的辅助手段。

分类器分数蒸馏:重塑 3D 生成的关键所在

这篇论文的核心贡献,在于重新评估了 SDS 中 CFG 的角色,发现 CFG 不仅仅是辅助手段,恰恰相反,它才是文本到三维生成中的关键驱动。由于这一部分可以被解释为一个隐式的分类模型,研究者们将这一新范式命名为分类器分数蒸馏(Classifier Score Distillation, CSD)

这一发现从根本上改变了我们对基于分数蒸馏成功的文本到三维生成机制的理解。具体而言,其有效性来自于从隐式分类器中提炼知识,而不是依赖于生成先验。

CSD 的引入使得我们能够重新审视现有技术设计选择。例如,研究者们展示了负面提示可以被视为负分类器分数,从而制定了一个渐进式的负分类器分数优化策略,这增强了生成质量,同时保持了与提示的结果忠实度。

此外,研究还揭示了利用分类器分数进行高效的基于文本驱动的三维编辑的可能性,以及将变分分数蒸馏技术 (Variational Score Distillation) 视为一种自适应性的负分类器分数优化形式。

实验效果

CSD 不仅在理论上对文本到三维生成领域提供了新的视角,而且在实际应用中也表现出优越的性能。

在主要的 3D 生成任务上的实验结果显示,在文本对齐和视觉质量方面,该方法相较于 Dream Fusion、Magic3D、Fantasia3D 等现有技术有显著提升,生成的纹理也真实丰富。

在速度上,CSD 在单个 A800 GPU 上只需 1 小时即可完成任务,而能达到同样视觉效果的 Prolific Dreamer 方法则需要长达 8 小时。这一显著的速度优势,加上其出色的生成质量,证明了 CSD 技术的高效性和实用性。

此外,定量评估中采用的 CLIP R-Precision 指标进一步证实了 CSD 的优越性。用户研究也显示 59.4% 的参与者更倾向于选择 CSD 生成的结果。

实验部分还对比了 CSD 在纹理生成这一任务上的能力,与多个方法进行比较,实验结果显示无论从效果还是用户研究中都优于其他方法。

此外,研究者们还展示了如何利用 CSD 对现有的 3D 场景进行编辑,如下图所示,你可以使用 CSD 将一个香蕉人编辑为一个黄瓜人,将模特身上的苔藓编辑为鲜花,而不损失其他部分。

总而言之,CSD 从理论出发,重新思考了目前 3D 生成的关键所在,重塑优化目标,最终在多个任务上显示出其优越性与强大的潜力。通过对这一新范式的深入探索和应用,我们能够更有效地从文本描述中生成高质量、高精度的三维内容,这对于三维内容创造领域的未来发展具有深远的影响。

【哈马斯:除非建立独立的巴勒斯坦国 否则绝不解除武装】当地时间8月2日,巴勒斯坦伊斯兰抵抗运动(哈马斯)发表声明强调,“除非全面恢复我们的民族权利,其中最重要的是建立一个以耶路撒冷为首都、享有完全主权的独立的巴勒斯坦国,否则就不能放弃武装抵抗。”声明称,只要以色列对巴勒斯坦领土的占领持续存在,抵抗运动及其武装手段就是巴勒斯坦民族应有的合法权利,这一立场已得到国际公约的承认。此前,有媒体援引美国中东问题特使威特科夫的言论报道称,“哈马斯已表示愿意解除武装”。

【葡萄牙因高温和野火风险宣布进入警戒状态】葡萄牙内政部长玛丽亚·露西娅·阿马拉尔2日宣布,由于极为严重的高温天气加剧了葡萄牙一些地区的野火风险,全国将自3日0时起进入警戒状态,预计最高气温将在36至44摄氏度之间。预计至6日,葡萄牙将经历一场“极为严重的高温天气”,全国大部分地区最高气温将在36至40摄氏度之间,部分地区的气温将达41至44摄氏度之间。阿马拉尔说,下周对葡萄牙而言将是艰难的一周,所有消防力量均已准备就绪。国民警卫队、公共安全警察和武装部队将加强巡逻、检查和监控。警戒状态将持续至8月7日23时59分。

【针对外国企业和人员的绑架、袭击等恶性事件频发,中国驻马里使馆发布提醒】近期,马里首都巴马科以外针对外国企业和人员的绑架、袭击等恶性事件频发,造成严重后果,安全风险进一步升高。驻马里使馆再次郑重提醒:一、全体在马中国公民采取一切必要措施加强安全防护。避免去往郊区、独自出行或夜间出行。如条件允许,尽快撤离至巴马科等相对安全地区。如遇绑架、抢劫等危急情况,应保持冷静,避免过激行为,务必将确保人身安全放在首位,在保证自身安全前提下择机逃离,及时报警并与中国驻马里使馆取得联系。二、全体在马采金中国企业和人员坚决杜绝侥幸心理,立即停工停产,尽快撤至巴马科。立即向使馆报备信息。拨打使馆领保电话:+223-78110040,使馆工作人员将指导登记相关信息,便于紧急情况下提供领事保护与协助。对拒不停工撤离、拒不报备的行为,由此产生的一切严重后果自负。三、提高信息甄别能力,不信谣、不传谣,避免引起不必要恐慌。如需核实信息请联系驻马里使馆。

【哈马斯:除非建立独立的巴勒斯坦国 否则绝不解除武装】当地时间8月2日,巴勒斯坦伊斯兰抵抗运动(哈马斯)发表声明强调,“除非全面恢复我们的民族权利,其中最重要的是建立一个以耶路撒冷为首都、享有完全主权的独立的巴勒斯坦国,否则就不能放弃武装抵抗。”声明称,只要以色列对巴勒斯坦领土的占领持续存在,抵抗运动及其武装手段就是巴勒斯坦民族应有的合法权利,这一立场已得到国际公约的承认。此前,有媒体援引美国中东问题特使威特科夫的言论报道称,“哈马斯已表示愿意解除武装”。

【葡萄牙因高温和野火风险宣布进入警戒状态】葡萄牙内政部长玛丽亚·露西娅·阿马拉尔2日宣布,由于极为严重的高温天气加剧了葡萄牙一些地区的野火风险,全国将自3日0时起进入警戒状态,预计最高气温将在36至44摄氏度之间。预计至6日,葡萄牙将经历一场“极为严重的高温天气”,全国大部分地区最高气温将在36至40摄氏度之间,部分地区的气温将达41至44摄氏度之间。阿马拉尔说,下周对葡萄牙而言将是艰难的一周,所有消防力量均已准备就绪。国民警卫队、公共安全警察和武装部队将加强巡逻、检查和监控。警戒状态将持续至8月7日23时59分。

请输入评论内容

举报成功

举报

请您选择举报的原因

说说你的看法

意见/建议 反馈入口
  • TOKEN
  • 标题/昵称
  • 反馈内容

已反馈成功~