黄仁勋对话Transformer七子：太多算力浪费，我们必须解决自适应计算问题

AI科技大本营

03.2120:08

关注

黄仁勋认为，在过去的六十年中，计算机技术似乎并没有经历根本性的变革。而计算机的边际成本持续下降，为社会带来了巨大的动力。

而目前我们正处在一个巨大的变革点，正在见证生成式人工智能这种全新的软件和“AI工厂”的诞生。“人工智能通过数据理解其背后含义的能力，这是一个巨大的变革。”

“不要错过接下来的十年，因为在这十年里，我们将创造出巨大的生产力。时间的钟摆已经启动，我们的研究人员已经开始行动。”老黄在座谈开场时说道。

老黄在GTC2024的第三天邀请了Tansformer的创造者们进行座谈，来一起讨论未来生成式AI会将我们带向何方。

Transformer八子

老黄邀请到了机器语言模型Transformer的发明者、创造者们，即那篇名为《注意力就是一切（Attention is All you need）》的Transformer论文的作者们。

Ashish Vaswani：2016年加入谷歌大脑团队；2022年4月，与Niki Parmar共同创办了Adept AI，12月离开，并共同创立了另一家人工智能初创公司Essential AI。

Noam Shazeer：曾于2000年至2009年间和2012年至2021年期间就职于谷歌。2021年，Shazeer离开谷歌并与前谷歌工程师Daniel De Freitas共同创立Character.AI。

Illia Polosukhin：2014年加入谷歌，是八人团队中最早离开的人之一，于2017年同他人共同创立了区块链公司NEAR Protocol。

Lukasz Kaiser：曾任法国国家科学研究中心研究员。2013年加入谷歌。2021年离开谷歌，成为OpenAI的研究员。

Llion Jones：曾在Delcam、YouTube工作。2012年加入谷歌，担任软件工程师。后来离开谷歌，创办人工智能初创企业sakana.ai。

Aidan Gomez：毕业于加拿大多伦多大学，Transformer论文发表时，他仅是谷歌大脑团队的实习生。是八人团队中第二个离开谷歌的人。2019年，与他人共同创立了Cohere。

Niki Parmar：在谷歌大脑工作了4年后，与Ashish Vaswani共同创立了Adept AI和Essential AI。（Niki Parmar因为家庭急事无法出席）

Jakob Uszkoreit：2008年至2021年在谷歌工作。2021年离开谷歌，与他人共同创立Inceptive，该公司主营业务为人工智能生命科学，致力于使用神经网络和高通量实验来设计下一代RNA分子。

对谈精简版

递归神经网络没办法满足需要

黄仁勋：是什么启发了你们去做Transformer？

Illia Polosukhin：当时虽有递归神经网络（RNN）和一些初步的注意力机制（Arnens）引起了关注，但逐个单词的阅读效率不高。递归神经网络（RNN）并不能满足真正读取搜索结果的需求。

Jakob Uszkoreit：我们生成训练数据的速度远远超过了我们训练最先进架构的能力。实际上我们使用的是更简单的架构，比如以n-gram作为输入特征的前馈网络，这些架构通常都能超越那些更复杂、更先进的模型。那时候的强大RNN，特别是长短期记忆网络（LSTM）。

Noam Shazeer：我们在2015年左右就已经开始注意到这些Scaling law，你可以看到随着模型规模的增大，它的智能程度也随之提高。而挫败感在于，RNN处理起来实在是太麻烦了。然后我偶然听到这些家伙在讨论，嘿，让我们用卷积或者注意力机制来取代它。我心想，太好了，我们就这么干。我喜欢把Tansformer比作是从蒸汽机到内燃机的飞跃。我们本可以用蒸汽机完成工业革命，但那将会非常痛苦，而内燃机让一切都变得更好。

Ashish Vaswani：我在研究生时期就开始体会到一些苦涩的教训，尤其是在我从事机器翻译工作的时候。我意识到，嘿，我不会去学习那些复杂的语言规则。我认为梯度下降（Gradient Descent）——我们训练这些模型的方法——是一个比我更出色的老师。所以我不会去学习这些规则，我只会让梯度下降（Gradient Descent）为我完成所有工作，这就是我的第二个教训。

我从这些苦涩的教训中学到的是，那些可以扩展的通用架构最终将在长期中胜出。Transformer特别是其自注意力机制，具有非常广泛的适用性，它也让梯度下降变得更好。

Noam Shazeer：这个模式一直在重复出现。所以每一次当你添加一堆规则时，梯度下降终将比你更擅长学习这些规则。就是这样。就像我们一直在做的深度学习一样，我们正在构建一个形状像GPU的AI模型。而现在，我们正在构建一个形状像超级计算机的AI模型。

从机器翻译到多模态的实现

黄仁勋：Transformer当时要解决什么问题？

Lukasz Kaiser：机器翻译。只需提供一种语言和另一种语言，模型就能自行学会翻译，就像自然而然地涌现出来的，且效果令人满意。

黄仁勋：“Attention Is All You Need”这个灵感源自哪里？

Llion Jones：“Attention”的直觉就是你所需要的。所以我想出了这个论文标题，基本上发生的事情就是在我们寻找标题的时候。我们只是在做消融，开始把模型的一些碎片扔掉，只是为了看看它会不会变得更糟。令我们惊讶的是，它开始变得更好。包括像这样扔掉所有的卷积效果要好得多。那时我脑海中的想法是，我就是和我的脑子在一起工作。这就是标题的来源。

Ashish Vaswani：我们实际上是从一个最基本的框架开始的，然后我们添加了东西，我们添加了卷积，我猜后来我们又把它们去掉了。还有多头注意力等其他很多非常重要的东西。

黄仁勋：为什么叫Transformer？

Jakob Uszkoreit：只是随便起了一个，我们觉得它很有创意，使用了这样一种逻辑改变了我们的数据生产模式。所有的机器学习都是Transformer，也就是“颠覆者”的意思。

Noam Shazeer：“Transformer”描述了模型的原理，它实际上转换了整个信号。按照这个逻辑，几乎所有的机器学习都会被转换。

Llion Jones：Transformer之所以成为这样一个人们耳熟能详的名字，不仅仅是因为翻译的内容，而且是因为我们希望以一种更概括的方式来描述这种变革。

我们实际上是在尝试创造一些非常非常通用的东西，它真的可以将任何东西变成其他任何东西。当我们构建张量到张量库时，我们真正关注的是扩大自回归训练的规模。这不仅仅是语言，还有图像、音频的组件。

Lukasz说他正在做的是翻译是低估了自己。我们现在开始看到这些模式结合在一起都加入了模型。我们应该对一切进行训练。这个想法确实推动了扩展工作，最终成功了。你可以用它来研究生物学或生物软件，类似于计算机软件以程序的形式开始，然后将其编译成可以在GPU上运行的东西。

一个生物软件的生命始于某些行为的规范。比如说，你想打印一个蛋白质，就像细胞中的特定蛋白质一样。然后你学会了如何使用深度学习将其转化为RNA分子，但实际上一旦进入你的细胞，表现出这些行为。所以这个想法真的不仅仅是翻译成英语。

黄仁勋：你们是否创建了一个大型的实验室来生产所有这些？

Aidan Gomez：我们尝试在给定的产品中进行建模，比如说蛋白质表达和 mRNA疫苗之类的东西。在帕洛阿尔托，我们有一大堆机器人和穿着实验室外套的人，既有学习研究人员，也有以前是生物学家的人。

现在，我们认为自己是新事物的先驱，致力于实际创建这些数据并验证设计这些分子的模型。但最初的想法就是翻译。

架构性的修复、增强和突破

即便取得了成就，Transformer团队没有故步自封，而在准备迎接更大的变革与提升。

黄仁勋：所以你说一开始就有一些关于普遍 Transformer 的早期想法。但你们所有人在这条路上都看到了一些重大的、你们认为是基于基本 Transformer 设计的，真正伟大的额外贡献，主要是架构性的修复、增强和突破。

Aidan Gomez：我觉得在推理方面，已经有很多工作来加速这些模型，使它们更高效。但我仍然觉得有点不安，因为它与我们以前的形式非常相似。我认为世界需要比 Transformer 更好的东西。我想我们在座的所有人都希望它能被某种东西所取代，将我们带到一个新的性能高原。

你认为接下来会发生什么？是令人兴奋的一步吗？因为我觉得现在与 6、7 年前的情况相似。

Llion Jones：如果只是稍微改进，还不足以让整个人工智能行业转向新事物。我认为重要的是要明显、显而易见地变得更好。所以尽管原始模型可能不是我们现在拥有的最强大的东西，但我们仍然固守在原来的模型上。

黄仁勋：每个人的工具集都是不同的，你们想要改进的属性是什么呢？改进生成能力，还是要更快？

Jakob Uszkoreit 等：现在使用的计算量太大了，我觉得浪费了很多计算资源。但实际上，这是关于分配，而不是关于总量。

Illia Polosukhin：所以现在一个真实的例子就是 2 加 2。如果你输入这个模型，它会使用 1 万亿个参数。我认为自适应计算是接下来必须解决的问题之一，这样我们就知道在特定问题上要花费多少计算资源。

Ashish Vaswani：我们最初的目标是模拟 token 的演变，实现线性生成。现在这个过程也适用于图像，扩散模型会迭代地进行改进和完善。根本的问题是，哪些知识应该存在于模型内部，哪些应该存在于模型外部？例如，推理应该在外部使用符号系统进行，这是一个效率的问题。

Noam Shazeer：每次操作的计算成本大约是10到-18美元。拥有 5000 亿参数的模型每个 token 仍然只相当于一美元的百万分之一。这是非常便宜的。我们可以利用这个来提升模型的智能。我们有一些应用程序的价值是计算巨型神经网络的效率的百万倍以上。比如治愈癌症之类的，当然很重要，但即使只是与任何人交谈，与你的医生、律师、程序员交谈，你也需要支付 1 美元一个token，或者更多。我们有一百万个 token来使用，我们可以用它来让模型变得更聪明。有时候，恰到好处的词语就能改变世界。

Ashish Vaswani：获取正确的反馈对于提升模型智能至关重要。我们需要将任务分解为人类可以干预的步骤，并构建能够通过观察我们学习的模型。

推动科技造福世界

聚是一团火，散作满天星。Transformer论文的八位作者目前七位下场创业，还有一位在OpenAI。这里各公司创始人们的初衷基本都是科技改变世界。

黄仁勋：为什么创办你的公司？

Ashish Vaswani：从2021年开始，我发现模型最大的问题在于，你不能仅仅让模型变得更聪明，你还需要找到合适的人才来解读这些模型。我们的目标是构建模型并解决新的任务。我们的工作是理解任务的目标和内容。希望让这个世界与模型相互交融，使模型变得更加庞大和卓越。

Noam Shazeer：想象一下，如果我是一个病人，听到你这样说，我会觉得有数百亿人他们需要完成不同的任务。这就是深度学习的意义所在，我们通过对比来提升技术。我们的终极目标是帮助全世界的人们。你们必须进行测试，我们现在需要开发更快的解决方案，让数百人能够应用这些应用程序。

Jakob Uszkoreit：我更希望能够改变现有的医疗架构，并且希望科学技术的发展能够对人类的生存和发展产生积极影响。例如，蛋白质的结构解构已经受到了一定的影响，但目前我们缺乏数据。我们必须基于数据做出努力，这不仅是职责，也是作为父亲的责任。

黄仁勋：我一直认为它是药物设计。但我喜欢你把它看作蛋白质编程。

Llion Jones：我们共同创立的公司叫做Sakana AI，意思是“鱼”。我们之所以用日本的“鱼”来命名公司，是因为我们像鱼群一样，自然启发了我们寻找智能的灵感。如果我们能将许多检验的元素结合起来，就会创造出复杂而美妙的事物，内部的核心哲学是“学习永远胜利”。我们让这些模型变得更加可行，使用这些大型模型和变革性的模式，改变人们对世界和宇宙的认知方式。

Aidan Gomez：我创建 Coherer 的初衷与Noam Shazeer相似。我认为计算机正在进入一种新的模式，它正在改变现有的产品和我们的工作方式。我们的角色是什么？我实际上是在弥合差距、弥合鸿沟。适应并融合产品，直面用户，推进技术，让技术变得更加经济、更加普及。

Lukasz Kaiser：是的，我最终决定再次加入 OpenAI。卡普纳被问到为什么会回来，他说那里有钱，有时间。我加入的地方是 AI 最好的地方。公司里非常有趣。我们知道你可以利用大量数据和计算资源创建出优秀的东西，我仍然希望能够招募更多的人，以及更多的计算资源。但归根结底，我的角色还是一个数据处理者。我没有找到适合我的创业方向……

黄仁勋：我知道，但你继续改变着世界，继续吧。

Illia Polosukhin ：我与Ashish的观点相似，我坚信我们向着实现几乎所有世界中的软件化进步，而机器学习就是软件的一部分。因此，最直接的方法是教会机器编码，这样你就能够生成软件并改变所有人的访问方式。在NEAR，我们致力于整合人类智慧，获取相关数据。这种模式是基础性的进展，这种大模型在全球范围内被广泛使用，它在航天等领域有众多应用，它关乎各领域的交流与互动。

保持乐观，继续改进

黄仁勋：你们彼此之间有没有想要探讨的问题？

Illia Polosukhin：Transformer 模型中的自注意力机制可以视为一种“递归步骤”，在每个步骤中，模型都会根据输入中的不同部分来更新信息。这种递归性质使得模型能够在每个步骤中对输入进行增强和推理。然而，有趣的是，目前很少有人探索通过连接不同数量的递归步骤来训练模型，这可能是一个值得研究的方向。通过探索递归性质，我们可能能够扩展模型的推理能力，并使其能够处理更复杂的任务。

确实，有时候并不需要固定数量的步骤，而是需要根据输入的复杂程度来动态调整递归步骤的数量。这种动态调整可能会使模型更加灵活，能够更好地处理不同类型的输入和任务。另外，关于如何摆脱 tokens，这也是一个非常值得探索的问题。

Lukasz Kaiser：我个人认为，对于如何使用梯度下降来完全学习循环神经网络（RNN）的训练，我们尚未完全掌握。或许这很简单。我是说，长短期记忆网络（LSTM）有一些误差操作符，这使得早期的情况能够工作。

那么，SSMs（Structured Self-Attentive Models）工作得更好，对吗？这是因为它们的结构可能需要用不同的方式训练，而不是用梯度下降。也许我们需要像人类一样在一些服务中进行递归训练。

我个人的信仰是，如何复现这样的大模型，这是一个非常复杂的过程。系统会不断进步，但从本质上讲，你需要设计一种方法。人类是善于复现的生物，在人类历史中，我们不断复现成功的场景。

Transformer就跟蒸汽、内燃机一样，一开始只是为了解决简单的个体效率提速问题，之后却都带动了整个产业的变革。

到场的交流者在此之前，实际上从未同时出现在同一个房间里。黄仁勋表示很高兴能与各位交流，交流见产生难以言喻的魔法。

这种魔法，无疑会推动开发者们对大模型的认知更进一步。

参考链接：

https://venturebeat.com/ai/attention-is-all-you-need-creators-look-beyond-transformers-at-nvidia-gtc-the-world-needs-something-better/

4 月 25 ~ 26 日，由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行，特邀近 50 位技术领袖和行业应用专家，与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众，共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。