新浪财经

tw专家访谈,关于英伟达及达链一些信息

市场资讯 2025.06.16 20:41

(转自:君实财经)

tw专家访谈,关于英伟达及达链一些信息

一些网络信息,转发供参考,繁体转简体,不构成投资建议。

解决业界目前面临的三个最迫切的问题:

1. Jensen Huang 的旗舰产品 GB200 NVL72 机壳为何延后了近一年?这会带来什么后果?

2. 经历了上半年的爆发式成长,AI供应链下一步将走向何方?

3. ASIC和 GPU 之间的战争最新进展如何?

Q:2025年上半年,人工智能供应链取得了令人难以置信的成长。辉达(Nvidia)第一季成长了69%,台积电(TSMC)前五个月营收成长了43%,广达(Quanta)成长了75%,纬创(Wistron)成长了76%,智邦(Accton)更是成长了惊人的128%。这引发了一些担忧:这种惊人的成长动能能否持续到明年?尤其是黄仁勋(Jensen Huang)将人工智能称为“基础设施”,但基础设施一旦建成,就不需要频繁更新了,对吗?

答:这可以分解为供给和需求。供给指的是我们持续大幅成长的运算能力。需求指的是人们实际上需要多少运算能力。短期内肯定存在供应过剩的担忧,因为过去两年投资过多。

今年的强劲表现其实早在去年就已预料到。企业早已规划好了要建造多少个数据中心、购买多少算力以及建造多少台机器——所有这些都从资本支出中可见一斑。光是四大云端服务供应商的资本支出就连续两年成长了约40-50%,显示算力出现了惊人的成长。

当需求上升时,供应量也会同时急剧增加,因此,供应过剩是真实存在的可能性。如果你现在问这些晶圆厂,你会发现并非所有GPU都满载运转。因此,在今年巨额资本支出之后,制造商能否在2026年保持快速的支出增长,存在相当大的疑问。

此前,市场对人工智能的关注点完全集中在英伟达身上。但最近,英伟达的势头似乎有所减弱,部分原因是GB200芯片持续存在的生产问题。同时,云服务供应商已开始将部分订单转向其内部ASIC产品。

什么原因导致 GB200 出货延迟?

问:这其中有直接的因果关系吗?GB200 的延迟是否促使谷歌和亚马逊开发自己的芯片?

答:Nvidia 承诺 GB200 将进一步降低单位运算成本——而且买得越多,省得越多。这一直是黄仁勋的宣传口号。但当新产品未能准时上市时,上一代产品(Hopper)的吸引力就开始下降了。如果有人能打造出效能介于 Hopper 和 GB200 之间的芯片,他们当然会买。

黄仁勋设想 GB200 能带来巨大的架构飞跃。他的目标是,让云服务供应商放弃自己的内部项目,转而选择 Nvidia。然而,愿景是宏伟的,现实却更加残酷。当 Nvidia 遇到技术挑战并且无法足够快地将 GB200 推向市场时,云商加大了自己的ASIC力度来填补这一空白。

Q:为什么延迟这么久?GB200 原本应该在去年第三季就准备好了。现在才开始大量出货——几乎晚了整整一年。

答:他们可能在2023年9月才开始与下游制造商讨论这个想法。但这是一个极为雄心勃勃的架构,在各方面都突破了技术极限。指望它在一年内完成?这从来都不现实。然而,他们却竭尽全力推动供应链按时交付。如果一家供应商无法交付,他们就会寻找另一家。所以每个人都争先恐后地去完成一个不可能的目标。当他们无法实现时,Nvidia 就继续努力:延后三个月,再延后三个月,再延后三个月。这始终是不可能的任务。如今,GB200 终于准备就绪,Nvidia 已开始讨论明年年底推出下一代Rubin GPU。不过,这几乎肯定会被推迟。

问:苹果不是这样运作的。当他们在iPhone上推出新技术时,一开始良率可能很低,但一两个月内就会提高。英伟达一年多的延迟是怎么回事?

答:调整细节是一回事,突破界限则完全是另一回事。苹果就像挤牙膏一样——每一代产品都感觉像是一次小小的更新。而当你只是挤牙膏的时候,事情当然发展得很快。比去年略有进步?还好。没有进步?也无所谓。看看过去几年:有时苹果只是换个外壳就发布了一款新机型。每两年,当台积电推出新的制程节点时,他们就会相应地更新CPU。除此之外,几乎没有什么真正的创新。

Q:那么,GB200 的重大延期,最大的瓶颈是什么?有人认为是CoWoS封装,有人认为是液冷?

答:所有方面都存在问题。如果你审视整个架构,你会发现,当你把每个部分都推到极限时,每个部分都会变成瓶颈。能在两年内完成这个目标,这确实是一个挑战极限的成功案例,非常了不起。

就拿液体冷却来说:业界已经争论了十年,每个供应商都会告诉你,它永远不会流行。没有人愿意尝试,声称这项技术完全荒谬,因为一次漏水就可能摧毁整个资料中心,浪费大量资源。随后,Nvidia 整合了整个供应链,在两年内完成了这项任务。如果没有 Nvidia,液冷技术十年后也不会出现。

问:这真是令人印象深刻。我们参观了酷冷至尊(Cooler Master)的总部,他们向我们展示了散热板——GB200 的关键部件——它内建了传感器,一旦检测到液体就会自动关闭。

A:问题太多了。例如,你说的液冷,其实就是为了防止泄漏。冷却板的温度可能会足够低,导致其表面形成冷凝水。那么,该如何控制这些水分呢?即使有任何水滴落在主板上,也可能导致系统故障。这意味着你甚至必须控制数据中心的室内温度。这是一个令人头痛的问题,无论你是部署在沙特阿拉伯还是美国,情况都大不相同。光是管理这些因素就已经让设计过程变得极具挑战性。

这还只是冷却方面的问题。台积电的CoWoS封装翘曲、散热、高速铜布线和讯号完整性也存在问题。所有这些组件都在挑战极限。这个AI系统完全是由供应商从未开发过的组件所建构的。每家公司都在挑战自己的极限。坦白说,整个系统在仅仅一年的延迟内就能完成,这真是一项了不起的工程壮举。

ASIC与 GPU:目前的竞争态势

Q:您之前说过,最近几个月您对Google和亚马逊的数据中心供应链最乐观。为什么?

答:这又回到我们之前讨论的问题:说到人工智能计算机,你依赖的是通用 GPU 还是 ASIC?在训练大型语言模式方面,英伟达拥有明显且压倒性的优势,其他公司都无法与之匹敌。

但对于推理而言,所需的运算能力要低得多,成本则成为更关键的因素。因此,针对特定功能进行优化实际上具有相对优势。

在云计算厂商中,亚马逊和谷歌在这方面做得最好。他们的大部分运算需求来自于编写和运行代码,无论是内部还是外部客户。

在供应链方面,Google对台湾供应商的依赖程度并不高。目前只有联发科获得了下一代TPU的订单,但除此之外,Google似乎更倾向于与海外公司合作。谷歌的大部分服务器都是由加拿大的 Celestica 公司生产的。看看 Celestica 的股价表现就知道了。在过去三年里,它的股价飙升了10.2倍。可惜的是,台湾在Google的供应链中并不占主导地位。我们甚至无法供应他们的网络交换器或储存组件。

另一方面,亚马逊与台湾供应商的合作更为紧密。虽然台湾在网络交换器方面普遍较弱,但智邦科技却脱颖而出,曾为亚马逊生产过交换机。

世芯曾与亚马逊合作,为其ASIC芯片提供后端设计。最近,亚马逊转向了Marvell,但有传言称下一代芯片将回归世芯。当然,在量产之前,一切都尚未最终确定。

Accton 也获得了原型ASIC订单。

Q:据报道,GB200 现已进入量产阶段,您是否认为供应链的重心可能会从Google和亚马逊转向 Nvidia?

答:GB200 是否真的能批量出货,我们拭目以待吧。GB200 刚发布时可谓举足轻重——微软、谷歌、亚马逊都宣布了他们想要采购的数量。但现在,经历了这么多延迟之后,现实情况是只有甲骨文仍然对 GB200 表现出强劲的需求。谷歌和亚马逊呢?如今,他们几乎对它没什么兴趣了。

人工智能供应链的下一步是什么?

Q:GB200 NVL72 机壳中大约 70% 的组件都是 Nvidia 定制的。一些业内人士表示,Nvidia 正变得越来越像苹果,减少了 OEM 选择或更换零件的自由。这是趋势吗?

答:问题是,你有时间做出改变吗?正如我刚才提到的,Nvidia甚至告诉你VR200明年会推出,Rubin Ultra会在后年推出。Nvidia 本身也勉强跟上。所以,如果你想换个小部件,重新设计、测试,然后进行所有迭代,等你完成的时候,下一代产品已经投入生产了。这还有什么意义呢?

Nvidia 不玩渐进式游戏。它不会挤牙膏。它总是在挑战极限。今年他们突破一个界限,明年又突破另一个。即便如此,也未必能保证成功。所以,如果你想通过更换两个小部件来降低成本,那就去做吧——前提是你的研发实力足够。

Q:所以,Nvidia 的供应链面临的压力肯定很大。这比以前与苹果合作更困难吗?

答:这是一种不同的模式。英伟达的优点在于它的供应商确实能赚钱。至于苹果,说实话,「中毒的苹果」害死了许多供应商。利润率很低,利润微薄,如果产能估算错误,就可能破产。

和英伟达合作,你当然可以获利,但前提是你能交付产品。如果你跟不上进度,你可能会花数月时间和数百万美元去追逐项目,结果却被富士康抢先一步,提前六个月上市。最终你得不到任何订单,而下一代产品已经开始量产。你的投资最终可能一无所获。

Q:在苹果的供应链中,只有富士康和后来的和硕同时负责组装和机械零件。但现在,像广达、纬颖和技嘉这样的ODM厂商都表示他们有液冷解决方案。这是怎么回事呢?

答:严格来说,目前英伟达供应链中只有两家公司能够量产液冷系统:AVC(奇锋)和酷冷至尊。如果真的这么容易,难道不会有更多公司这么做吗?

Q:但是黄仁勋在COMPUTEX的主题演讲中有一个台湾供应商的视频,其中列出了富士康和台达作为水冷供应商。

答:当然,但就实际产量而言,仍然只有这两家。如果你指的是英伟达的RVL(推荐供应商名单),里面有17或18家公司。

当时,只要进入英伟达的RVL名单,就足以让股价飙升。但炒作是一回事,获得真正的订单又是另一回事。

RVL 榜单其实已经没什么特殊意义了。它一开始确实有。最初,Nvidia 告诉你只有两三家公司能做到,这很令人印象深刻。

但后来,随着第二、第三、第四、第五、第六和第七家供应商的加入,上榜已经不再是什么大问题了。

Q:您如何看待 Nvidia 从一家 GPU 供应商发展成为黄仁勋所说的 AI 基础设施公司?

答:Nvidia 定义了整个系统,就像早期的IBM一样。它设想了尖端规格应该是什么样子,并自行建造了许多部件。关键区别在于IBM销售的是整套系统,而Nvidia主要销售的是组件。(其自有品牌 DGX 服务器仅占收入的一小部分。)IBM后来开放了其架构,为PC革命铺平了道路。

但英伟达从一开始就没打算出售整个系统。它制定规格,定义架构,决定数据中心应该是什么样子。如果它能制造出一个组件来满足这个愿景,它就出售这个组件。如果它做不到——例如在冷却或供电方面——它就与有能力做到这一点的公司合作。但它需要所有人共同参与建设。

为什么 Nvidia 不断挑战极限?因为如果它不这么做,云计算巨头就会迎头赶上。这些云计算提供商并非业余爱好者。亚马逊、谷歌、微软——他们都是科技巨头

加载中...