广发电子 | 英伟达GTC大会发布多款新品,“AI的iPhone时代”拉开序幕
英伟达GTC大会发布多款新产品、技术和落地应用,再掀AIGC高潮。硬件:英伟达在GTC大会针对训练和推理发布多款新产品。软件:新商业模式下,月付3.7万美元的DGX Cloud可让企业可快速落地AI应用。应用:英伟达与各大行业厂商合作推出和升级AI赋能新应用,内容涵盖光刻、汽车、量子计算医疗等各行各业。
摘 要
英伟达GTC大会发布多款新产品、技术和落地应用,再掀AIGC高潮。英伟达于2023年3月21日晚召开了GTC大会,黄仁勋先生在大会上分享了英伟达最新研发的产品和AI领域的最新进展及未来趋势。本月来,各大厂密集发布和升级大模型和相关应用。我们认为,目前AIGC行业已经从单个现象级产品走到开始有望带动各行业进行生产力革命的重大转折点。
硬件:英伟达在GTC大会针对训练和推理发布多款新产品。英伟达推出全新GPU推理平台(L4,L40,H100 NVL,Grace Hopper芯片)4种配置分别用于加速AI视频、图像生成、大型语言模型部署和推荐系统。其中适用于训练阶段的DGX H100,其拥有8个H100 GPU模组,在FP8精度下可提供32PetaFLOPS的算力,并提供完整的英伟达AI软件堆栈,助力简化AI开发。目前NVIDIA DGX H100 AI超级计算机已全面投入生产。云计算巨头在内的生成式AI领域的多家企业正在使用英伟达提供的H100 GPU加速工作。加速计算产品与AI产业的发展共生共荣。英伟达不断为更大规模的AI模型训练提供更强大的算力基座,对AI训练和推理的前沿发展起到了重要推动力。
软件:新商业模式下,月付3.7万美元的DGX Cloud可让企业可快速落地AI应用。英伟达也宣布与谷歌云、微软Azure、甲骨文云联手推出DGX Cloud服务。DGX Cloud 让客户能够即时访问全球规模的云中的 NVIDIA AI 超级计算。企业可以按月租用 DGX Cloud 集群,快速轻松地扩展大型多节点训练工作负载的开发,而无需等待通常需求量很大的加速计算资源。月付3.7万美元的DGX Cloud可让企业在网页上训练自己的 ChatGPT,可以让商业公司更快、更方便用上超强算力和AI应用库。
应用:英伟达与各大行业厂商合作推出和升级AI赋能新应用,内容涵盖光刻、汽车、量子计算医疗等各行各业。英伟达在 GTC大会上宣布了一项名为CuLitho光刻新技术,用以加快半导体的设计和制造。该软件使用英伟达芯片来加速基于软件的芯片设计,并加速用于在芯片上打印该设计的光刻掩模的物理制造之间的步骤。这一进展将使芯片的晶体管和电路比现在尺寸更小,同时加快了芯片的上市时间,并提高为推动制造过程而全天候运行的大规模数据中心的能源效率。此外,英伟达也发布了一系列面向汽车、量子计算、医疗生物等领域的新进展,包括已向特定企业开放PaaS服务NVIDIA Omniverse Cloud,与宝马集团扩大合作建设虚拟工厂,与比亚迪合作NVIDIA DRIVE Orin平台。
AIGC发展不及预期, AI服务器出货量不及预期,国产厂商技术和产品进展不及预期。
核 心 观 点
硬件、软件、应用齐更新,“AI的iPhone时代”已来。
硬件方面:英伟达针对训练和推理推出相关芯片和AI超级计算机。
英伟达H100 GPU基于Hopper架构,比A100性能更优。H100 GPU内置Transformer Engine,针对生成式AI、大型语言模型和推荐系统的开发、训练和部署进行了优化,利用FP8精度在大型语言模型上比上一代A100提供了快9倍的AI训练和快30倍的AI推理。DGX H100拥有8个H100 GPU模组,在FP8精度下可提供32PetaFLOPS的算力,并提供完整的英伟达AI软件堆栈,助力简化AI开发。目前,NVIDIA DGX H100 AI超级计算机已全面投入生产。
云计算厂商已开始部署H100。目前,云计算巨头已利用英伟达提供的H100 GPU加速工作。目前宣布采用H100的项目包括Meta开发的AI超级计算机Grand Teton系统、AWS宣布即将推出的EC2超级集群、Twelve Labs(为企业和开发者提供多模态视频理解的平台)的OCI Supercluster。
推理方面,英伟达推出全新GPU推理平台:4种配置分别用于加速AI视频、图像生成、大型语言模型部署和推荐系统:(1)L4:针对AI视频设计的通用GPU,可提供比CPU高120倍的AI视频性能,能效提高99%;(2)L40:用于图像生成,针对图形和AI支持的2D、视频和3D图像生成进行了优化,推理性能是英伟达最受欢迎的云推理GPU T4的10倍;(3)H100 NVL:针对ChatGPT等大型语言模型的大规模部署,配备双GPU NVLink,将两张拥有94GB HBM3显存的PCIe H100 GPU拼接在一起,可处理拥有1750亿参数的GPT-3大模型;(4)Grace Hooper芯片:适用于推荐系统和大型语言模型的AI数据库,图推荐模型、向量数据库和图神经网络的理想选择,通过900GB/s的高速一致性芯片到芯片接口连接英伟达Grace CPU和Hopper GPU。
Grace Hooper芯片包含72个核心,可提供3.2TB/s的截面带宽通过900 GB/s的低功耗芯片到芯片缓存一致接口。Grace的速度比最新一代x86 CPU的平均速度快1.3倍,而在数据中心中则快1.2倍,整机功耗仅为原来服务器的60%,在功耗相同的情况下,Grace Hopper超级芯片使云服务提供商获得了两倍增长机会。
针对ChatGPU等大型语言模型的推理,英伟达推出一款新的Hopper GPU配备GPU NVLINK的PCIe H100,其配备94GB HBM3显存。目前在云上唯一可以实际处理ChatGPT的GPU是HGX A100,与适用于GPT-3处理的HGX A100相比,一台搭载四队H100及GPU NVLINK的标准服务器速度要快10倍。
软件方面:新的商业模式下,DGX Cloud可让企业可快速落地应用。英伟达推出了一项名为DGX Cloud的AI超级计算服务,与微软Azure、谷歌OCP、Oracle OCI合作,通过一个Web浏览器就能访问,以便企业为生成式AI和其他开创性应用训练先进的模型。其每个实例都具有8个NVIDIA H100或A100 80GB Tensor Core GPU,每个节点共有640GB的GPU内存。DGX Cloud提供了专用的NVIDIA DGX AI超级计算集群,并配备了NVIDIA AI软件。英伟达还推出了全新云服务及代工厂NVIDIA AI Foundations,使企业能够构建、改进、运营使用其专有数据训练的、用于特定领域任务的定制大模型和生成式AI模型。英伟达宣布有50家早期企业客户,覆盖消费互联网和软件、医疗保健、媒体和娱乐、金融服务。
DGX Cloud服务每月起价36999美元,价格包括用于开发 AI 应用程序和大型语言模型(如 BioNeMo)的 AI Enterprise 软件。DGX Cloud 让客户能够即时访问全球规模的云中的 NVIDIA AI 超级计算。企业可以按月租用 DGX Cloud 集群,快速轻松地扩展大型多节点训练工作负载的开发,而无需等待通常需求量很大的加速计算资源。在这种商业模式下,商业公司可以更快、更方便用上超强算力和AI应用库的需求。
应用层面:英伟达与各大行业厂商合作推出和升级AI赋能新应用。英伟达在GTC会上介绍了几个基于英伟达技术和产品的应用。
如(1)加速计算光刻:CuLitho能够将计算光刻的速度提高到原来的40倍。英伟达H100 GPU需要89块掩膜板,在CPU上运行时,处理单个掩膜板需要两周时间,而在GPU上运行cuLitho只需8小时。(2)工业数字化:通过数字模拟更快地训练模型生成模拟工厂;(3)医疗相关:英伟达技术可帮助开发通过几秒钟预测蛋白质结构将基因研究成本降低至100美元的药物开发应用,以及与检测早期结肠癌的Medtronic合作应用等。此外,人们可以使用 NVIDIA NeMo 语言服务和 NVIDIA Picasso 图像、视频和 3D 服务来构建专有的、特定领域的生成式 AI 应用程序,用于智能对话和客户支持、专业内容创建、数字模拟等。另外,英伟达还宣布了 NVIDIA BioNeMo 生物学云服务的新模型等。利用AI的强大功能,协作式虚拟世界和高级图形到数据科学、医疗健康和其他关键应用领域将迎来巨大变革。
加速计算光刻:cuLitho能够将计算光刻的速度提高到原来的40倍。计算光刻是芯片设计和制造领域中最大的计算工作负载,每年消耗数百亿CPU小时。cuLitho能够将计算光刻的速度提高到原来的40倍。英伟达H100 GPU需要89块掩膜板,在CPU上运行时,处理单个掩膜板需要两周时间,而在GPU上运行cuLitho只需8小时。台积电可通过在500个DGX H100系统上使用cuLitho加速,将功率从35MW降至5MW,替代此前用于计算光刻的40000台CPU服务器。使用cuLitho的晶圆厂,每天可以生产3-5倍多的光掩膜,仅使用当前配置电力的1/9。英伟达表示cuLitho历时四年研发,与全球最大晶圆厂台积电、全球最大光刻机制造商阿斯麦(ASML)、全球最大EDA公司新思科技(Synopsys)这三家芯片大厂进行了密切合作。台积电将于6月开始对cuLitho进行生产资格认证。
算力、数据、算法是AIGC产业发展的重要基石,若其中任一因素发展不及预期,则相关因素以及模型和应用发展都有可能不及预期。
AI服务器出货量不及预期
AI服务器出货量一方面受到企业IT支出,尤其是云计算厂商的CapEx支出影响,因此若企业对算力设施的投入不及预期,可能影响AI服务器的出货量;另一方面AI服务器价值量占比较高的GPU和CPU若出现供应紧张等问题,也会对AI服务器的出货量级和节奏造成一定消极影响。
国产厂商技术和产品进展不及预期
目前国内厂商不断开发模型以及相关应用,若在算力、数据、算法等某一因素上支撑不及预期,则可能导致国内厂商技术和产品进展不及预期。