【磐耀周评】国产算力

磐耀资产

2024.09.2421:54

关注

前言

虽然当前有着对于AI建设的不同声音，但是一个可以确定的是中国在这个赛道上仍然处于追赶中。然而我们中国在AI基建中最核心的GPU环节已经被不断地制裁，对于当前全球最先进的NV GPU一直处于只可远观，不可采购的状态。这一残酷的现状也催化出中国国产GPU的巨大需求，从而才能满足中国国产大模型的训练需求、国家及各地方政府的超智算中心建设需求、以及各大行业产业升级的需求。

目前市场对于全球GPU龙头英伟达的2024年营收预期达到了超过1200亿美元，其中数据中心业务超过1000亿美元；而中国AI的需求同样巨大，简单按照全球半导体的需求角度来看，未来至少也将能占到了全球15%，那么粗略计算中国如若全部实现国产GPU的供应及使用，市场需求也将是一个千亿人民币的规模。我们相信在中美科技贸易之争中，中国也将诞生出不同规模的百亿级GPU厂商，以填补中国GPU的空白，并且成就中国的国产替代自主可控。

正文

当前全球对于AI的建设如火如荼，我们也看到了相对应的国内外产生了许多关于AI硬件建设的需求诞生。从最核心的GPU，再到配套的光模块、交换机、交换机芯片、铜连接、PCB等等环节也进入了爆发阶段。然而看到下图所示，中国虽然在不少环节都跻身其中，例如PCB、光模块、交换机、服务器、铜缆等，但是在最核心的GPU和交换机芯片环节，中国产业链在其中所参与到的份额确实寥寥无几。

看到中国AI大模型的情况，根据IDC数据表明，中国人工智能市场在2023年支出规模或已经达到约148亿美元，占据了全球总规模的10%。而颀中也有不少地方政府、银行、通讯相关的AI需求在不断地涌现。从IDC的预期来看，中国2026年的AI市场规模将会达到约264亿美元，2021~2026年的CAGR将超过20%；而从行业应用层面看，未来五年增速最快的所属行业为银行、地方政府为主，五年CAGR均将超过23%。而这一类方向可以说是属于国家所需要的自主可控方向，但结合上图所述，虽然中国的需求巨大，但是实际上在最核心的GPU和配套芯片上，中国仍然还处于完善自身产业链的阶段。

再到中国的算力需求角度，同样根据IDC的当前 AI 技术正加快融入千行百业，超大规模 AI 模型和海量数据对算力的需求也持续攀升。云游戏、元宇宙、VR/AR 等新应用场景加速发展，大模型的训练和推理过程进一步带动算力需求爆发，同时也推动算力需求由通用性 CPU 算力向高性能 GPU 算力发展。据 IDC，2022年，我国智能算力规模达 268 EFLOPS，预计 2026 年达 1271.4 EFLOPS，进入每秒十万亿亿次浮点计算级别，2022-2026 年 CAGR达47.6%，远超通用算力增速。

然而在美国的科技封锁之下，自2022年开始中国就已经被美国通过出口管制、实体清单、法案等一系列的方式限制对于GPU的采购和生产环节（晶圆制造）的卡脖子。此外美国更是限制了中国用户对于美国IaaS、AI API的接入及访问。

虽然紧跟着美国各项禁令后，英伟达为中国市场推出了A800、H800、以及进一步推出H20等中国特别版GPU芯片，但是看到此类GPU产品的性能与原先的H100、A100相比，例如A800和A100相比整体通信贷款性能上就降低了33%，影响了多卡互联的性能；而H800更是较H100在整体通讯带宽性能上降低了55%左右，进一步的削弱了中国AI大模型训练的竞争力，导致模型的训练需要更长更久的时间周期。

在随后的，英伟达为中国推出的H20 GPU芯片，通过对于性能参数的比较，我们任然可以发现英伟达HGX H20与H100、H200同系列，均采用英伟达Hopper架构，但显存容量增大至96GB HBM3，GPU显存带宽4.0TB/s。算力方面，该产品的FP8算力为296 TFLOPS，FP16算力为148 TLOPS，仅为当今AI 芯片H200的1/13。

GPU受制于人，国产替代继续推进。在英伟达GPU在国外近乎进入垄断地位，但又由于政治因素中国无法得到完整版的GPU大背景下，中国算力芯片也进入了自强不息的阶段。在国内市场，以华为昇腾、寒武纪、海光信息等多家公司都开始走向国产替代自研GPU的道路，且看到如今的他们，都已经获得了一定的成就和突破。

我们通过华为、寒武纪等国产GPU厂商的公开信息可以看到与英伟达的数据的对比，虽然国产GPU仍然在处于追赶的状态，但是目前例如寒武纪、华为、海光、昆仑芯已经基本上可以实现对于推理的需求；而随着这一类厂商进一步的推进GPU的研发，例如更先进的思元5xx系列、昇腾9xx产品推出之时，我们有望能实现对于国产大模型训练的部分需求。