【中原电子】半导体行业深度报告:AI算力芯片——AI时代的引擎
市场投研资讯
(来源:中原证券研究所)
AI算力芯片是“AI时代的引擎”。ChatGPT热潮引发全球科技企业加速布局AI大模型,谷歌、Meta、百度、阿里巴巴、华为、DeepSeek等随后相继推出大模型产品,并持续迭代升级;北美四大云厂商受益于AI对核心业务的推动,持续加大资本开支,国内三大互联网厂商不断提升资本开支,国内智算中心加速建设,推动算力需求高速成长。人工智能进入算力新时代,全球算力规模高速增长,根据IDC的预测,预计全球算力规模将从2023年的1397 EFLOPS增长至2030年的16 ZFLOPS,预计2023-2030年复合增速达50%。AI服务器是支持生成式AI应用的核心基础设施,AI算力芯片为AI服务器提供算力的底层支撑,是算力的基石。AI算力芯片作为“AI时代的引擎”,有望畅享AI算力需求爆发浪潮,并推动AI技术的快速发展和广泛应用。
AI算力芯片以GPU为主流,定制ASIC芯片市场高速成长。AI算力芯片按应用场景可分为云端、边缘端、终端AI算力芯片,本文主要针对于云端AI算力芯片。根据芯片的设计方法及应用, AI算力芯片可分为通用型AI芯片和专用型AI芯片,当前AI算力芯片以GPU为主流。随着AI算力规模的快速增长将催生更大的GPU芯片需求,根据Statista的数据,2023年全球GPU市场规模为436亿美元,预计2029年市场规模将达到2742亿美元,预计2024-2029年复合增速达33.2%。根据TechInsights的数据,2023年英伟达在数据中心GPU出货量中占据98%的市场份额,主导全球GPU市场。GPU生态体系复杂,建设周期长、难度大,GPU生态体系建立极高的行业壁垒。AI ASIC是一种专为人工智能应用设计的定制集成电路,具有高性能、低功耗、定制化、低成本等特点。由于英伟达垄断全球数据中心GPU市场,因成本、差异化竞争、创新性、供应链多元化等原因,云厂商等大厂自研芯片趋势明显,推动数据中心定制ASIC芯片市场高速成长,预计增速快于通用AI算力芯片。根据Marvell的数据,2023年数据中心定制ASIC芯片市场规模约为66亿美元,预计2028年市场规模将达到429亿美元,预计2023-2028年复合增速达45%。近年来美国不断加大对高端GPU的出口管制,国产AI算力芯片厂商迎来黄金发展期。
DeepSeek有望推动国产AI算力芯片加速发展。DeepSeek通过技术创新实现大模型训练及推理极高性价比,DeepSeek模型的技术创新主要体现在采用混合专家(MoE)架构、多头潜在注意力机制(MLA)、FP8混合精度训练技术、多 Token 预测(MTP)及蒸馏技术等。DeepSeek-V3性能对标GPT-4o,DeepSeek-R1性能对标OpenAI o1;根据DeepSeek在2025年1月20日公布的数据,DeepSeek-R1 API调用成本不到OpenAl o1的5%。DeepSeek-R1实现模型推理极高性价比,蒸馏技术使小模型也具有强大的推理能力及低成本,将助力AI应用大规模落地,并有望推动推理需求加速释放。IDC预计2028年中国AI服务器用于推理工作负载占比将达到73%,由于推理服务器占比远高于训练服务器,用于推理的AI算力芯片国产替代空间更为广阔。国产算力生态链已全面适配DeepSeek,DeepSeek通过技术创新提升AI算力芯片的效率,进而加快国产AI算力芯片自主可控的进程,国产AI算力芯片厂商有望加速发展,并持续提升市场份额。
投资建议。云端AI算力芯片建议关注寒武纪-U(688256)、海光信息(688041),定制ASIC芯片建议关注芯原股份(688521)、翱捷科技-U(688220),先进制造建议关注中芯国际(688981),先进封装建议关注长电科技(600584)。
风险提示:国际地缘政治冲突加剧风险,下游需求不及预期风险,市场竞争加剧风险,新产品研发进展不及预期风险,国产替代进展不及预期风险。
1. AI算力芯片是“AI时代的引擎”
1.1. 大模型持续迭代,推动全球算力需求高速成长
ChatGPT热潮引发全球科技企业加速迭代AI大模型。ChatGPT是由美国公司OpenAI开发、在2022年11月发布上线的人工智能对话机器人,ChatGPT标志着自然语言处理和对话AI领域的一大步。ChatGPT上线两个月后月活跃用户数突破1亿,是历史上用户增长速度最快的消费级应用程序。ChatGPT热潮引发全球科技企业加速布局,谷歌、Meta、百度、阿里巴巴、华为、DeepSeek等科技企业随后相继推出AI大模型产品,并持续迭代升级。
GPT-4.5带来更自然的交互体验。2025年2月27日,OpenAI正式发布AI大模型GPT-4.5。作为 OpenAI 迄今为止规模最大、知识最丰富的模型,GPT-4.5 在 GPT-4o 的基础上进一步扩展了预训练,与专注于科学、技术、工程和数学(STEM)领域的其他模型不同,GPT-4.5更全面、更通用。在与人类测试者的对比评估中,GPT-4.5 相较于 GPT-4o 的胜率(人类偏好测试)更高,包括但不限于创造性智能(56.8%)、专业问题(63.2%)以及日常问题(57.0%);GPT-4.5带来更自然、更温暖、更符合人类的交流习惯。GPT-4.5 的知识面更广,对用户意图的理解更精准,情绪智能也有所提升,因此特别适用于写作、编程和解决实际问题,同时减少了幻觉现象。
OpenAI o3进一步提升复杂推理能力。2024年12月20日,OpenAI发布全新推理大模型o3,o3模型在多个标准测试中的表现均优于o1,进一步提升复杂推理能力,在一些条件下接近通用人工智能(AGI)。在软件基准测试(SWE-benchVerified)中,o3的准确率达到了71.7%,相较o1提升超过20%;在编程竞赛(Codeforces)中,o3的评分达到2727,接近OpenAI顶尖程序员水平;而在数学竞赛(AIME)中,o3的准确率高达96.7%,远超o1的83.3%;在博士生级别问题测试集(GPQA)中,o3达到87.7分,远超人类选手的程度;在ARC-AGI测试中,o3首次突破了人类水平的门槛,达到87.5%。
大模型持续迭代,推动算力需求高速成长。Scaling law推动大模型持续迭代,根据Epoch AI的数据,2012-2023年大模型训练的算力需求增长近亿倍,目前仍然在大模型推动算力需求高速成长的趋势中。
北美四大云厂商受益于AI对核心业务的推动,持续加大资本开支。受益于AI对于公司核心业务的推动,北美四大云厂商谷歌、微软、Meta、亚马逊2023年开始持续加大资本开支,2024年四季度四大云厂商的资本开支合计为706亿美元,同比增长69%,环比增长23%。目前北美四大云厂商的资本开支增长主要用于AI基础设施的投资,并从AI投资中获得了积极回报,预计2025年仍有望继续大幅增加资本开支。
国内三大互联网厂商不断提升资本开支,国内智算中心加速建设。国内三大互联网厂商阿里巴巴、百度、腾讯2023年也开始不断加大资本开支,2024年四季度三大互联网厂商的资本开支合计为720亿元,同比增长259%,环比增长99%,预计2025年国内三大互联网厂商将继续加大用于AI基础设施建设的资本开支。根据中国电信研究院发布的《智算产业发展研究报告(2024)》的数据,截至2024年6月,中国已建和正在建设的智算中心超250个;目前各级政府、运营商、互联网企业等积极建设智算中心,以满足国内日益增长的算力需求。
人工智能进入算力新时代,全球算力规模高速增长。随着人工智能的快速发展以及AI大模型带来的算力需求爆发,算力已经成为推动数字经济飞速发展的新引擎,人工智能进入算力新时代,全球算力规模呈现高速增长态势。根据IDC、Gartner、TOP500、中国信通院的预测,预计全球算力规模将从2023年的1397 EFLOPS增长至2030年的16 ZFLOPS,预计2023-2030年全球算力规模复合增速达50%。根据IDC的数据,2024年中国智能算力规模为725.3 EFLOPS,预计2028年将达到2781.9 EFLOPS,预计2023-2028年中国智能算力规模的复合增速为46.2%。
1.2. AI算力芯片是算力的基石
AI服务器是支撑生成式AI应用的核心基础设施。人工智能产业链一般为三层结构,包括基础层、技术层和应用层,其中基础层是人工智能产业的基础,为人工智能提供数据及算力支撑。服务器一般可分为通用服务器、云计算服务器、边缘服务器、AI服务器等类型,AI服务器专为人工智能训练和推理应用而设计。大模型兴起和生成式AI应用显著提升了对高性能计算资源的需求,AI服务器是支撑这些复杂人工智能应用的核心基础设施, AI服务器的其核心器件包括CPU、GPU、FPGA、NPU、存储器等芯片,以及PCB、高速连接器等。
大模型有望推动AI服务器出货量高速成长。大模型带来算力的巨量需求,有望进一步推动AI服务器市场的增长。根据IDC的数据,2024年全球AI服务器市场规模预计为1251亿美元,2025年将增至1587亿美元,2028年有望达到2227亿美元,2024-2028年复合增速达15.5%,其中生成式AI服务器占比将从2025年的29.6%提升至2028年的37.7%。IDC预计2024年中国AI服务器市场规模为190亿美元,2025年将达259亿美元,同比增长36.2%,2028年将达到552亿美元,2024-2028年复合增速达30.6%。
AI算力芯片是算力的基石。CPU+GPU是目前AI服务器主流的异构计算系统方案,根据IDC 2018年服务器成本构成的数据,推理型和机器学习型服务器中CPU+GPU成本占比达到50-82.6%,其中机器学习型服务器GPU成本占比达到72.8%。AI算力芯片具备强大的并行计算能力,能够快速处理大规模数据和复杂的神经网络模型,并实现人工智能训练与推理任务;AI算力芯片占AI服务器成本主要部分,为AI服务器提供算力的底层支撑,是算力的基石。AI算力芯片作为“AI时代的引擎”,有望畅享AI算力需求爆发浪潮,并推动AI技术的快速发展和广泛应用。
2. AI算力芯片以GPU为主流,定制ASIC芯片市场高速成长
2.1. AI算力芯片可应用于云端、边缘端、终端,当前以GPU为主流
混合AI是AI的发展趋势。AI训练和推理受限于大型复杂模型而在云端部署,而AI推理的规模远高于AI训练,在云端进行推理的成本极高,将影响规模化扩展。随着生成式AI的快速发展以及计算需求的日益增长,AI处理必须分布在云端和终端进行,才能实现AI的规模化扩展并发挥其最大潜能。混合AI指终端和云端协同工作,在适当的场景和时间下分配AI计算的工作负载,以提供更好的体验,并高效利用资源;在一些场景下,计算将主要以终端为中心,在必要时向云端分流任务;而在以云为中心的场景下,终端将根据自身能力,在可能的情况下从云端分担一些AI工作负载。与仅在云端进行处理不同,混合AI架构在云端和边缘终端之间分配并协调AI工作负载;云端和边缘终端如智能手机、汽车、个人电脑和物联网终端协同工作,能够实现更强大、更高效且高度优化的AI。
AI算力芯片按应用场景可分为云端、边缘端、终端AI算力芯片。人工智能的各类应用场景,从云端溢出到边缘端,或下沉到终端,都需要由AI算力芯片提供计算能力支撑。云端、 边缘端、 终端三种场景对于AI算力芯片的运算能力和功耗等特性有着不同要求,云端AI算力芯片承载处理海量数据和计算任务,需要高性能、高计算密度,对于算力要求最高;终端对低功耗、高能效有更高要求,通常对算力要求相对偏低;边缘端对功耗、性能的要求通常介于终端与云端之间;本文主要针对于云端AI算力芯片。
根据芯片的设计方法及应用, AI算力芯片可分为通用型AI芯片和专用型AI芯片。通用型AI芯片为实现通用任务设计的芯片,主要包括CPU、GPU、FPGA等;专用型AI芯片是专门针对人工智能领域设计的芯片,主要包括TPU(Tensor Processing Unit)、NPU(Neural Network Processing Unit)、ASIC等。在通用型AI芯片中,由于在计算架构和性能特点上的不同,CPU适合处理逻辑复杂、顺序性强的串行任务;GPU是为图形渲染和并行计算设计的处理器,具有大量的计算核心,适合处理大规模并行任务;FPGA通过集成大量的可重构逻辑单元阵列,可支持硬件架构的重构,从而灵活支持不同的人工智能模型。专用型AI芯片是针对面向特定的、具体的、相对单一的人工智能应用专门设计的芯片,其架构和指令集针对人工智能领域中的各类算法和应用作了专门优化,具体实现方法为在架构层面对特定智能算法作硬化支持,可高效支持视觉、语音、自然语言处理和传统机器学习等智能处理任务。
当前AI算力芯片以GPU为主流,英伟达主导全球AI算力芯片市场。根据的IDC数据,2024上半年,中国AI加速芯片的市场规模达超过90万张;从技术角度来看,GPU卡占据80%的市场份额。根据Precedence Research数据,2022年英伟达占据全球AI芯片市场份额超过80%,其中英伟达占全球AI服务器加速芯片市场份额超过95%。
AI算力芯片产业链包括人工智能算法、芯片设计、芯片制造及下游应用环节。人工智能芯片产业链上游主要是人工智能算法以及芯片设计工具,人工智能算法覆盖广泛,包括视觉算法、语音处理算法、自然语言处理算法以及各类机器学习方法(如深度学习等)。AI算力芯片行业的核心为芯片设计和芯片制造,芯片设计工具厂商、晶圆代工厂商与封装测试厂商为AI算力芯片提供了研发工具和产业支撑。 AI算力芯片行业的下游应用场景主要包括云计算与数据中心、边缘计算、消费类电子、智能制造、智能驾驶、 智慧金融、智能教育等领域。
2.2. 英伟达主导全球GPU市场,GPU生态体系建立极高的行业壁垒
GPU(Graphics Processing Unit)即图形处理单元,是计算机的图形处理及并行计算的核心。GPU最初主要应用于加速图形渲染,如3D渲染、图像处理和视频解码等,是计算机显卡的核心;随着技术的发展,GPU也被广泛应用于通用计算领域,如人工智能、深度学习、科学计算、大数据处理等领域,用于通用计算的GPU被称为GPGPU(General-Purpose computing on Graphics Processing Units),即通用GPU。
GPU与CPU在内部架构上有显著差异,决定了它们各自的优势领域。GPU通过大量简单核心和高带宽内存架构,优化并行计算能力,适合处理大规模数据和高吞吐量任务;CPU通过少量高性能核心和复杂控制单元优化单线程性能,适合复杂任务和低延迟需求。
GPU架构由流处理器(SM)、光栅操作单元、纹理单元、专用加速单元等多个关键组件组成,这些组件协同工作,以实现高效的通用计算和图形渲染。GPU的计算架构由一系列流式多处理器(SM)组成,其中每个SM又由多个流式处理器、核心或线程组成,例如,NVIDIA H100 GPU具有132个SM,每个SM拥有64个核心,总计核心高达8448个;每个SM还配备了几个功能单元或其他加速计算单元,例如张量核心(Tensor Core)或光线追踪单元(Ray Tracing Unit),用于满足GPU所处理的工作负载的特定计算需求。GPU具有多层不同类型的内存,每一层都有其特定用途。
GPU硬件性能可以通过多个参数综合评估,包括核心数量、核心频率、显存容量、显存位宽、显存带宽、显存频率、工艺制程等。GPU的核心数量越多、核心频率越高,GPU的计算能力越强。显存容量越大,GPU能够处理的数据规模就越大;显存带宽越高, GPU 显存与核心之间数据传输的速率越快。GPU的工艺制程越先进,GPU性能越好、功耗越低。
GPU架构对性能影响至关重要,不同架构下的硬件性能参数有所不同。GPU 架构的每次升级在计算能力、图形处理能力、能效比等多方面对性能产生了显著提升,所以GPU架构对性能影响至关重要。通过对比英伟达GeForce系列RTX 3090、RTX 4090、RTX 5090,不同GPU架构下硬件性能参数有所不同。随着GPU架构的升级,GPU厂商通常会采用更先进的工艺制程,比如英伟达从 8nm 工艺的Ampere架构升级到 4nm 工艺的Blackwell架构,在相同性能下,新工艺能够降低功耗,或者在相同功耗下提供更高的性能。
多GPU互连成为行业发展趋势,以提高系统的计算能力。随着AI大模型时代来临,AI算力需求不断增长, 由于单GPU芯片算力和内存有限,无法承载大模型的训练任务,通过多种互连技术将多颗GPU芯片互连在一起提供大规模的算力,已成为行业发展趋势。对于多GPU系统,如何实现GPU之间的高速数据传输和协同工作是关键问题。英伟达推出NVLink、NVSwitch等互连技术,通过更高的带宽和更低的延迟,为多GPU系统提供更高的性能和效率,支持GPU 之间的高速数据传输和协同工作,提高通信速度,加速计算过程等。NVLink用于连接多个GPU之间或连接GPU与其他设备(如CPU、内存等)之间的通信,它允许GPU之间以点对点方式进行通信,具有比传统的 PCIe 总线更高的带宽和更低的延迟。NVSwitch实现单服务器中多个GPU之间的全连接,允许单个服务器节点中多达16个GPU实现全互联,每个GPU都可以与其他GPU直接通信,无需通过CPU或其他中介。经过多年演进,NVLink技术已升级到第5代,NVLink 5.0数据传输速率达到100GB/s,每个Blackwell GPU有18个NVLink连接,Blackwell GPU将提供1.8TB/s的总带宽,是PCIe Gen5总线带宽的14倍;NVSwitch也升级到了第四代,每个NVSwitch支持144个NVLink 端口,无阻塞交换容量为14.4TB/s。
GPU应用场景广泛,数据中心GPU市场快速增长。GPU最初设计用于图形渲染,但随着其并行计算能力的提升,GPU的应用场景已经扩展到数据中心、自动驾驶、机器人、区块链与加密货币、科学计算、金融科技、医疗健康等多个领域。近年来数据中心GPU市场在全球范围内呈现出快速增长的趋势,尤其是在人工智能、高性能计算和云计算等领域。
GPU是AI服务器算力的基石,有望畅享AI算力需求爆发浪潮。GPU是AI服务器算力的基石,随着AI算力规模的快速增长将催生更大的GPU芯片需求。根据Statista的数据,2023年全球GPU市场规模为436亿美元,预计2029年市场规模将达到2742亿美元,预计2024-2029年复合增速达33.2%。
英伟达主导全球GPU市场。根据TechInsights的数据,2023年全球数据中心GPU总出货量达到了385万颗,相比2022年的267万颗同比增长44.2%,其中英伟达数据中心 2023 年GPU 出货量呈现爆发式增长,总计约 376 万台,英伟达在数据中心GPU出货量中占据98%的市场份额,英伟达还占据全球数据中心 GPU 市场 98% 的收入份额,达到 362 亿美元,是 2022 年 109 亿美元的三倍多。根据Jon Peddie Research的数据, 2024年第四季度全球PC GPU出货量达到7800万颗,同比增长0.8%,环比增长6.2%,其中英特尔、AMD、英伟达的市场份额分别为65%、18%、16%。
GPU生态体系主要由三部分构成,包括底层硬件,中间层API接口、算法库、开发工具等,上层应用。以英伟达数据中心平台GPU生态体系为例,底层硬件的核心是英伟达的 GPU 产品、用于 GPU之间高速连接的NVSwitch 、节点之间互联的各种高速网卡、交换机等,以及基于 GPU 构建的服务器;中间层是软件层面的建设,包括计算相关的 CUDA-X、网络存储及安全相关的 DOCA 和 MAGNUM IO加速库,以及编译器、调试和优化工具等开发者工具包和基于各种行业的应用框架;上层是开发者基于英伟达提供的软硬件平台能力,所构建的行业应用。
GPU厂商非常重视软件生态系统的构建,英伟达CUDA生态几乎占据通用计算 GPU领域的全部市场。CUDA全称为Compute Unified Device Architecture,即统一计算设备架构,是英伟达推出的基于其GPU的通用高性能计算平台和编程模型。目前CUDA 生态包括编程语言和API、开发库、分析和调试工具、GPU加速应用程序、GPU与CUDA 架构链接、数据中心工具和集群管理六个部分。编程语言和API支持 C、C++、Fortran、Python 等多种高级编程语言;英伟达提供的 CUDA 工具包可用于在 GPU 上开发、优化和部署应用程序,还支持第三方工具链,如 PyCUDA、AltiMesh Hybridizer、OpenACC、OpenCL、Alea - GPU 等,方便开发者从不同的编程接口来使用 CUDA。英伟达在 CUDA 平台上提供了CUDA-X,它是一系列库、工具和技术的集合,其中包括数学库、并行算法库、图像和视频库、通信库、深度学习库等,同时还支持OpenCV、FFmpeg 等合作伙伴提供的库。英伟达提供了多种工具来帮助开发者进行性能分析和调试, NVIDIA Nsight是低开销的性能分析、跟踪和调试工具,提供基于图形用户界面的环境,可在多种英伟达平台上使用;CUDA GDB 是 Linux GDB 的扩展,提供基于控制台的调试接口;CUDA - Memcheck 可用于检查内存访问问题;此外还支持第三方解决方案,如 ARM Forge、TotalView Debugger 等。目前几乎所有的深度学习框架都使用CUDA/GPU计算来加速深度学习的训练和推理,英伟达维护了大量经过GPU加速的应用程序。在数据中心中,英伟达与生态系统合作伙伴紧密合作,为开发者和运维人员提供软件工具,涵盖 AI 和高性能计算软件生命周期的各个环节,以实现数据中心的轻松部署、管理和运行;例如通过 Mellanox 高速互连技术,可将数千个 GPU 连接起来,构建大规模的计算集群。CUDA生态系统复杂,建设难度大,CUDA生态几乎占据通用计算 GPU领域的全部市场。
GPU生态体系建立极高的行业壁垒。GPU一方面有对硬件性能的要求,还需要软件体系进行配套,而GPU软件生态系统复杂,建设周期长、难度大。英伟达CUDA生态从2006年开始建设,经过多年的积累,建立强大的先发优势,英伟达通过与客户进行平台适配、软件开源合作,不断加强客户粘性,GPU行业新进入者转移客户的难度极大,GPU生态体系建立极高的行业壁垒。
2.3. 云厂商等大厂自研芯片趋势明显,推动定制ASIC芯片市场高速成长
AI ASIC是一种专为人工智能应用设计的定制集成电路,具有高性能、低功耗、定制化、低成本等特点。与通用处理器相比,AI ASIC针对特定的AI任务和算法进行了优化,如深度学习中的矩阵乘法、卷积等运算,能在短时间内完成大量计算任务,提供高吞吐量和低延迟,满足AI应用对实时性的要求;AI ASIC通过优化电路设计和采用先进的工艺技术,在处理AI工作负载时具有较高的能效比,适合大规模数据中心等对能耗敏感的场景;虽然前期研发和设计成本较高,在大规模部署时,ASIC的单位计算成本通常低于通用处理器。
AI ASIC与GPU在AI计算任务中各有优势和劣势。在算力上,先进GPU比ASIC有明显的优势;ASIC针对特定任务优化,通常能提供更高的计算效率,ASIC在矩阵乘法、卷积运算等特定AI任务上性能可能优于GPU;GPU通用性强,能够运行各种不同类型的算法和模型,ASIC功能固定,难以修改和扩展,灵活性较差;ASIC针对特定任务优化,功耗显著低于GPU;GPU研发和制造成本较高,硬件成本是大规模部署的重要制约因素,ASIC在大规模量产时单位成本相对较低。
GPU软件生态成熟且丰富,AI ASIC推动软件生态走向多元化。ASIC的软件生态缺乏通用性,主要是对特定应用场景和算法进行优化;由于ASIC的开发工具和软件库资源相对较少,编程难度比GPU大,开发者在使用ASIC进行开发和调试时所需要花费时间会更多。GPU的软件生态成熟且丰富,如英伟达CUDA和AMD ROCm等,提供了广泛的开发工具、编程语言支持,并拥有大量的开源项目和社区资源。为了提升AI ASIC在特定场景下的计算效率,谷歌、亚马逊、META、微软等厂商为ASIC开发了配套的全栈软件生态,包括编译器、底层中间件等,持续降低从 CUDA 生态向其他生态转换的迁移成本,以减轻对 CUDA 生态的依赖性。
云厂商等大厂自研芯片趋势明显,推动数据中心定制ASIC芯片市场高速增长。由于全球头部云厂商、互联网厂商等对AI算力芯片需求量巨大,英伟达垄断全球数据中心GPU市场,因成本、差异化竞争、创新性、供应链多元化等原因,越来越多地大厂开始设计自有品牌的芯片,大厂自研芯片趋势明显;云厂商等大力投入自研AI ASIC,推动数据中心定制ASIC芯片市场高速增长,预计增速快于通用AI算力芯片。根据 Marvell的数据,2023年数据中心AI算力芯片市场规模约为420亿美元,其中定制ASIC芯片占比16%,市场规模约为66亿美元;预计2028年数据中心定制ASIC芯片市场规模将达到429亿美元,市场份额约为25%,2023-2028年复合增速将达到45%;预计2028年数据中心AI算力芯片市场规模将达约1720亿美元,2023-2028年复合增速约为32%。
云厂商自研AI ASIC芯片时,通常会与芯片设计厂商合作,然后再由台积电等晶圆代工厂进行芯片制造,目前全球定制AI ASIC市场竞争格局以博通、Marvell等厂商为主。博通为全球定制AI ASIC市场领导厂商,已经为大客户实现AI ASIC大规模量产。博通在多年的发展中已经积累了大量的成体系的高性能计算/互连IP核及相关技术,除了传统的CPU/DSP IP核外,博通还具有交换、互连接口、存储接口等关键IP核;这些成体系的IP核可以帮助博通降低ASIC产品成本和研发周期,以及降低不同IP核联合使用的设计风险,并建立博通强大的竞争优势。博通2024财年AI收入达到120亿美元,公司CEO表示,到2027年,公司在AI 芯片和网络组件的市场规模将达到600亿到900亿美元。
谷歌TPU(Tensor Processing Unit)即张量处理单元,是谷歌专为加速机器学习任务设计的定制ASIC芯片,主要用于深度学习的训练和推理。TPU 基本上是专门用于矩阵乘法的计算核心,并与高带宽内存(HBM)连接;TPU的基本组件包括矩阵乘法单元 (MXU)、矢量单元 (VPU) 和矢量内存 (VMEM);矩阵乘法单元是 TensorCore 的核心,矢量处理单元执行一般数学运算,矢量内存是位于 TensorCore 中靠近计算单元的片上暂存器;TPU 在进行矩阵乘法方面速度非常快。
目前谷歌TPU已经迭代至第六代产品,每代产品相较于上一代在芯片架构及性能上均有一定的提升。2015年谷歌TPU v1推出,主要用于推理任务。2024年谷歌发布第六代产品TPU v6 Trillium,是目前性能最强、能效最高的TPU。TPU v6 Trillium与上一代TPU v5e相比,单芯片峰值计算性能提高了4.7倍,HBM容量和带宽均增加一倍,同时芯片间互连带宽也增加一倍;TPU v6 Trillium在性能提升的同时,能源效率比上一代提高了67%,显著降低了运营成本;TPU v6 Trillium被用于训练谷歌的Gemini 2.0等AI大模型。
谷歌TPU迭代推动大模型训练与推理效率大幅提升。Gemini 等AI大模型性能强大且复杂,拥有数十亿个参数,训练如此密集的大模型 需要巨大的计算能力以及共同设计的软件优化。与上一代TPU v5e 相比,TPU v6 Trillium 为 Llama-2-70b 和 gpt3-175b 等大模型提供了高达 4 倍的训练速度。TPU v6 Trillium 为推理工作负载提供了重大改进,为图像扩散和大模型 提供了最好的 TPU 推理性能,从而实现了更快、更高效的 AI 模型部署;与 TPU v5e 相比,TPU v6 Trillium 的Stable Diffusion XL离线推理相对吞吐量(每秒图像数)高出 3.1 倍,服务器推理相对吞吐量高出 2.9 倍。
谷歌已建立100000 TPU芯片算力集群。TPU芯片通过ICI 连接成算力集群,TPU 网络可以连接16x16x16 TPU v4 和16x20x28TPU v5p。为了满足日益增长的AI计算需求,谷歌已将超过 100000 个TPU v6 Trillium 芯片连接到一个网络结构中,构建了世界上最强大的 AI 超级计算机之一;该系统将超过 100000 个 TPU v6 Trillium 芯片与每秒 13 PB 带宽的 Jupiter 网络结构相结合,使单个分布式训练作业能够扩展到数十万个加速器上。这种大规模芯片集群可以提供强大的计算能力,实现高效的并行计算,从而加速大模型的训练过程,提高人工智能系统的性能和效率。
2.4. 美国不断加大对高端AI算力芯片出口管制,国产厂商迎来黄金发展期
美国对高端GPU供应限制不断趋严,国产AI算力芯片厂商迎来黄金发展期。美国商务部在2022、2023、2025年连续对高端AI算力芯片进行出口管制,不断加大英伟达及AMD高端GPU芯片供应限制,国产AI算力芯片厂商迎来黄金发展机遇,但国产厂商华为海思、寒武纪、海光信息、壁仞科技和摩尔线程等进入出口管制“实体清单”,晶圆代工产能供应受限,影响国产AI算力芯片发展速度。
国产AI算力芯片厂商不断追赶海外龙头厂商,但在硬件性能上与全球领先水平仍有一定的差距。随着AI应用计算量的不断增加,要实现AI算力的持续大幅增长,既要单卡性能提升,又要多卡组合。从AI算力芯片硬件来看,单个芯片硬件性能及卡间互联性能是评估AI算力芯片产品水平的核心指标。国产厂商在芯片微架构、制程等方面不断追赶海外龙头厂商,产品性能逐步提升,但与全球领先水平仍有1-2代的差距。
AI算力芯片软件生态壁垒极高,国产领先厂商华为昇腾、寒武纪等未来有望在生态上取得突破。在软件生态方面,英伟达经过十几年的积累,其CUDA生态建立极高的竞争壁垒,国产厂商通过兼容CUDA及自建生态两条路径发展,国内领先厂商华为昇腾、寒武纪等未来有望在生态上取得突破。华为基于昇腾系列AI芯片,通过模组、板卡、小站、服务器、集群等丰富的产品形态,打造面向“端、边、云”的全场景AI基础设施方案。昇腾计算是基于硬件和基础软件构建的全栈AI计算基础设施、行业应用及服务,包括昇腾系列AI芯片、系列硬件、CANN(异构计算架构)、Al计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链。昇腾计算已建立基于昇腾计算技术与产品、各种合作伙伴,为千行百业赋能的生态体系。
3. DeepSeek有望推动国产AI算力芯片加速发展
DeepSeek通过技术创新实现大模型训练极高的性价比。2024年12月26日,DeepSeek正式发布全新系列模型 DeepSeek-V3,DeepSeek-V3 为自研 MoE 模型,总参数量为671B,每个token激活37B参数,在 14.8T token 上进行了预训练。DeepSeek-V3在性能上对标OpenAI GPT-4o模型,并在成本上优势巨大,实现极高的性价比。DeepSeek-V3的技术创新主要体现在采用混合专家(MoE)架构,动态选择最合适的子模型来处理输入数据,以降低计算量;引入多头潜在注意力机制(MLA)降低内存占用和计算成本,同时保持高性能;采用 FP8混合精度训练降低算力资源消耗,同时保持模型性能;采用多 Token 预测(MTP)方法提升模型训练和推理的效率。
DeepSeek MoE架构通过动态组合多个专家模型来提升模型的性能和效率。DeepSeek 的 MoE 架构通过将传统 Transformer 中的前馈网络(FFN)层替换为 MoE 层,引入多个专家网络(Experts)和一个门控网络(Gating Network)。专家网络包括多个独立的专家模型,每个专家模型负责处理特定类型的数据。门控网络负责决定每个输入数据应该由哪些专家模型处理,并分配相应的权重;通过门控机制,模型能够动态选择最合适的专家来处理输入数据。DeepSeek MoE架构采用稀疏激活策略,每次训练或推理时只激活部分专家,而不是整个模型;在 DeepSeek- V3 中,模型总参数为 6710 亿,但每次训练仅激活 370 亿参数,从而提高计算效率。传统的Transformer 架构采用固定的编码器-解码器结构,所有输入数据通过相同的多层自注意力机制和前馈神经网络处理;模型的参数是静态的,无法根据输入数据的特性动态调整。
多头潜在注意力机制(MLA)的核心思想是对KV进行低秩压缩,以减少推理过程中的KV缓存,从而降低内存占用及计算成本。在传统的Transformer架构推理过程中,在进行生成式任务时,模型需要逐步生成序列,每次生成一个新token时,模型需要读入所有过去 Token 的上下文,重新计算之前所有token的键(Key)和值(Value)。KV缓存通过存储这些已计算的Key和Value,避免重复计算,从而提高推理效率。MLA的方法是将KV矩阵转换为低秩形式,将原矩阵表示为两个较小矩阵(相当于潜在向量)的乘积,在推理过程中,仅缓存潜在向量,而不缓存完整的KV。这种低秩压缩技术显著减少了KV缓存的大小,同时保留了关键信息,从而降低内存占用及计算成本。
多token预测(MTP)是一种创新的训练目标,通过同时预测多个未来token来提升模型的训练和推理效率。MTP技术基于主模型(Main Model)和多个顺序模块(MTP Module),主模型负责基础的下一个Token预测,而MTP模块用于预测多个未来Token。传统的模型通常一次只预测下一个token,在生成文本时,模型按照顺序逐个生成下一个 Token,每生成一个 Token 都要进行一次完整的计算,依赖前一个生成的 Token 来生成下一个;而MTP能够同时预测多个连续的 Token,模型通过改造增加多个独立输出头,利用多 token 交叉熵损失进行训练,一次计算可以得到多个 Token 的预测结果,显著增加了训练信号的密度,提升模型的训练和推理效率,并且MTP生成的文本更加连贯自然,适合长文本生成任务。
DeepSeek采用FP8混合精度训练技术在训练效率、内存占用和模型性能方面实现了显著优化。传统大模型通常使用FP32或FP16进行训练,精度较高,但计算速度慢,内存占用较大。而FP8数据位宽是8位,与FP16、FP32相比,使用FP8进行计算的速度最快、内存占用最小。DeepSeek FP8混合精度将 FP8 与 BF16、FP32 等结合,采用FP8进行大量核心计算操作,少数关键操作则使用BF16或FP32,提高效率的同时确保数值稳定性,并显著减少了内存占用和计算开销。
DeepSeek-V3性能对标GPT-4o。DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022;长文本测评方面,在DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表现超越其他模型;DeepSeek-V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非 o1 类模型,并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022;在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了所有开源闭源模型;DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。
DeepSeek-R1 通过冷启动与多阶段训练显著提升模型的推理能力,模型蒸馏技术有望推动AI应用加速落地。DeepSeek-R1-Zero与DeepSeek-R1都是基于强化学习(RL)的推理模型,DeepSeek-R1-Zero存在语言不一致等输出方面的问题,DeepSeek-R1 通过冷启动与多阶段训练,显著提升模型的推理能力,同时具有较好的实用性。DeepSeek-R1 采用模型蒸馏技术,将大模型(教师模型)的推理能力高效迁移到小模型(学生模型)中;模型蒸馏的核心思想是通过教师模型的输出指导学生模型的训练,使学生模型能够模仿教师模型的行为;通过蒸馏技术,小模型能够保留大模型的大部分性能,DeepSeek-R1 蒸馏后的小模型在多个基准测试中表现出色;DeepSeek-R1 的模型蒸馏技术显著提升小模型的推理能力,并降低部署成本,有望推动AI应用加速落地。
DeepSeek-R1性能对标OpenAI o1。DeepSeek-R1极大提升了模型推理能力,在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。DeepSeek在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
DeepSeek实现大模型训练与推理成本优势巨大,助力AI应用大规模落地。DeepSeek-V3的训练成本具有极大的经济性,根据DeepSeek-R1 Technical Report的数据,在预训练阶段,每处理1万亿tokens,训练DeepSeek-V3仅需18万H800 GPU小时,即在2048块H800 GPU的集群上需要3.7天;因此,DeepSeek-V3的预训练阶段在不到两个月内完成,耗时266.4万(2664K)GPU小时;加上上下文长度扩展所需的11.9万GPU小时和后训练所需的5千GPU小时,DeepSeek-V3的完整训练仅需278.8万GPU小时;假设H800 GPU的租赁价格为每小时2美元,DeepSeek-V3的总训练成本仅为557.6万美元。2025年1月20日DeepSeek-R1正式发布,其API定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元;OpenAl o1定价为每百万输入tokens 55元(缓存命中)/110元(缓存未命中),每百万输出 tokens 438元;DeepSeek-R1 API调用成本不到OpenAl o1的5%。DeepSeek-V3性能对标GPT-4o,DeepSeek-R1性能对标 OpenAI o1,并且DeepSeek模型成本优势巨大,有望推动AI应用大规模落地。
DeepSeek有望推动推理需求加速释放,国产AI算力芯片或持续提升市场份额。随着大模型的成熟及AI应用的不断拓展,推理场景需求日益增加,推理服务器的占比将显著提高; IDC预计2028年中国AI服务器用于推理工作负载占比将达到73%。根据的IDC数据,2024上半年,中国加速芯片的市场规模达超过90万张,国产AI芯片出货量已接近20万张,约占整个市场份额的20%;用于推理的AI芯片占据61%的市场份额。DeepSeek-R1通过技术创新实现模型推理极高性价比,蒸馏技术使小模型也具有强大的推理能力及低成本,将助力AI应用大规模落地,有望推动推理需求加速释放。由于推理服务器占比远高于训练服务器,在AI算力芯片进口受限的背景下,用于推理的AI算力芯片国产替代空间更为广阔,国产AI算力芯片有望持续提升市场份额。
国产算力生态链全面适配DeepSeek,国产AI算力芯片厂商有望加速发展。DeepSeek大模型得到全球众多科技厂商的认可,纷纷对DeepSeek模型进行支持,国内AI算力芯片厂商、CPU厂商、操作系统厂商、AI服务器及一体机厂商、云计算及IDC厂商等国产算力生态链全面适配DeepSeek,有望加速AI应用落地。华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、寒武纪、云天励飞、燧原科技、昆仑芯等国产AI算力芯片厂商已完成适配DeepSeek,DeepSeek通过技术创新提升AI算力芯片的效率,进而加快国产AI算力芯片自主可控的进程,国产AI算力芯片厂商有望加速发展。
4. 投资建议
ChatGPT热潮引发全球科技企业加速布局AI大模型,谷歌、Meta、百度、阿里巴巴、华为、DeepSeek等随后相继推出大模型产品,并持续迭代升级;北美四大云厂商、国内三大互联网厂商不断提升资本开支,国内智算中心加速建设,推动算力需求高速成长。AI服务器是支持生成式AI应用的核心基础设施,AI算力芯片为AI服务器提供算力的底层支撑,是算力的基石。AI算力芯片作为“AI时代的引擎”,有望畅享AI算力需求爆发浪潮,并推动AI技术的快速发展和广泛应用。
根据芯片的设计方法及应用, AI算力芯片可分为通用型AI芯片和专用型AI芯片,当前AI算力芯片以GPU为主流。随着AI算力规模的快速增长将催生更大的GPU芯片需求,根据Statista的数据,2023年全球GPU市场规模为436亿美元,预计2029年市场规模将达到2742亿美元,预计2024-2029年复合增速达33.2%。AI ASIC是一种专为人工智能应用设计的定制集成电路,具有高性能、低功耗、定制化、低成本等特点。由于英伟达垄断全球数据中心GPU市场,因成本、差异化竞争、创新性、供应链多元化等原因,云厂商等大厂自研芯片趋势明显,推动数据中心定制ASIC芯片市场高速成长,预计增速快于通用AI算力芯片。根据 Marvell的数据,2023年数据中心定制ASIC芯片市场规模约为66亿美元,预计2028年市场规模将达到429亿美元,预计2023-2028年复合增速达45%。近年来美国不断加大对高端GPU的出口管制,国产AI算力芯片厂商迎来黄金发展期。
DeepSeek通过技术创新实现大模型训练及推理极高性价比,DeepSeek-V3性能对标GPT-4o,DeepSeek-R1性能对标OpenAI o1;根据DeepSeek在2025年1月20日公布的数据,DeepSeek-R1 API调用成本不到OpenAl o1的5%。DeepSeek-R1实现模型推理极高性价比,将助力AI应用大规模落地,并有望推动推理需求加速释放,用于推理的AI算力芯片国产替代空间更为广阔。国产算力生态链已全面适配DeepSeek,DeepSeek通过技术创新提升AI算力芯片的效率,进而加快国产AI算力芯片自主可控的进程,国产AI算力芯片厂商有望加速发展,并持续提升市场份额。
相关标的:云端AI算力芯片建议关注寒武纪-U(688256)、海光信息(688041),定制ASIC芯片建议关注芯原股份(688521)、翱捷科技-U(688220),先进制造建议关注中芯国际(688981),先进封装建议关注长电科技(600584)。
4.1. 寒武纪-U
寒武纪为国内人工智能芯片领先企业,云边端一体协同发展。公司成立于2016年,专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片。寒武纪能提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。寒武纪基础软件系统平台是公司专门针对其云、边、端的智能处理器产品打造的软件开发平台,采用端云一体、训推一体架构,可同时支持寒武纪云、边、端的全系列产品。目前公司产品广泛服务于大模型算法公司、 服务器厂商、人工智能应用公司,为互联网、云计算、能源、教育、金融、电信、医疗等行业的智能化升级提供支撑。
公司拥有四大产品线。公司的主要产品线包括云端产品线、边缘产品线、IP授权及软件、智能计算集群系统业务。云端产品线目前包括云端智能芯片、加速卡及训练整机;边缘计算产品是在终端和云端之间的设备上配备适度的计算能力,一方面可有效弥补终端设备计算能力不足的劣势,另一方面可缓解云计算场景下数据隐私、带宽与延时等潜在问题;IP授权及软件产品线包括IP授权和基础系统软件平台;智能计算集群系统业务是将公司自研的加速卡或训练整机产品与合作伙伴提供的服务器设备、网络设备与存储设备结合,并配备公司的集群管理软件组成的数据中心集群,其核心算力来源是公司自研的云端智能芯片。2023年公司云端产品线、边缘产品线、IP授权及软件、智能计算集群系统业务营收占比分别为12.77%、1.53%、0.03%、85.22%。
公司营收快速增长,存货、预付款项大幅增长。根据公司2024年业绩快报,公司2024年实现营业收入11.74亿元,同比增长65.56%,归母净利润为-4.43亿元,同比亏损收窄47.76%。截至2024年三季度末,公司存货为10.15亿元,同比增长310.85%;预付款项为8.54亿元,同比增长543.95%。公司2024年三季度末存货、预付款项大幅增长,表明国产算力需求旺盛,公司在供应链端提前布局,有望推动营收持续增长。
公司掌握智能芯片与基础系统软件核心技术,并持续迭代升级。公司在智能芯片领域掌握了智能处理器微架构、智能处理器指令集、SoC芯片设计、处理器芯片功能验证、先进工艺物理设计、芯片封装设计与量产测试、硬件系统设计等七大类核心技术;在基础系统软件技术领域掌握了编程框架适配与优化、智能芯片编程语言、智能芯片编译器、智能芯片数学库、智能芯片虚拟化软件、智能芯片核心驱动、云边端一体化开发环境等七大类核心技术。公司持续进行智能处理器微架构及指令集的迭代,新一代智能处理器微架构及指令集将对自然语言处理大模型、视频图像生成大模型以及推荐系统大模型的训练推理等场景进行重点优化,将在编程灵活性、易用性、性能、功耗、面积等方面提升产品竞争力。公司持续推动训练软件平台及推理软件平台的更新和迭代,大力推进大模型业务的适配和优化。
国产算力需求旺盛,公司有望持续提升市场份额。海外云厂商、国内互联网厂商不断增加资本开支,国内智算中心加速建设,推动算力需求高速增长,AI算力芯片市场正处于快速增长之中;根据Gartner的数据,2023年全球AI芯片的市场规模为530亿美元,预计2024年增长至671亿美元,预计2027年市场规模将达到1194亿美元,预计2024-2027年复合增速达22.5%。AI算力芯片国产替代需求迫切,寒武纪技术优势突出,产品品类丰富,有望持续提升市场份额。
风险提示:AI需求不及预期风险,行业竞争加剧风险,新产品研发进展不及预期,国际地缘政治冲突加剧风险。
4.2. 海光信息
海光信息为国产高端处理器领先企业。海光信息成立于2014年,主营业务是高端处理器研发、设计和销售,主要应用于服务器、工作站等计算、存储设备中,公司的产品包括海光通用处理器(CPU)和海光协处理器(DCU),海光CPU系列产品已经广泛应用于电信、金融、互联网、教育、交通等重要行业或领域,海光DCU系列产品可广泛应用于大数据处理、人工智能、商业计算等应用领域。公司的CPU和DCU产品性能优异,在国内处于领先地位,并不断提升高端处理器性能。公司拥有浪潮、联想、新华三、同方等国内知名服务器厂商客户,公司高端处理器产品广泛应用于多款服务器,并已经得到了国内行业用户的高度认可。
公司不断加大技术研发投入,业绩持续高速成长。2024年,公司围绕通用计算市场,持续保持高强度的研发投入,不断实现技术创新、产品性能提升, 获得用户更广泛认可,进一步拓展了产品的应用领域,加之国产化市场占比进一步提升,促进公司业绩显著增长。公司2024年实现营收91.62亿元,同比增长52.40%;实现归母净利润19.31亿元,同比增长52.87%;实现扣非净利润18.16亿元,同比增长59.79%。由于公司产品不断迭代升级,新产品毛利率提升,公司盈利能力持续提升,2024年公司实现毛利率63.72%,同比提升4.05%,2024年实现净利率29.65%,同比提升1.35%。公司持续加大研发投入力度,2024年研发投入 34.46亿元,同比增长 22.63%,研发投入占营业收入比 37.61%,由于营业收入增幅高于研发投入增长,研发投入占营业收入的比例同比有所下降。
公司CPU与DCU产品技术领先,生态优势突出。公司是少数几家同时具备高端通用处理器(CPU)和协处理器(DCU)研发能力的企业,海光DCU属于GPGPU的一种。海光CPU使用先进的处理器微结构和缓存层次结构、高主频设计技术,依托先进的SoC 架构和片上网络,集成了更多处理器核心,使产品性能优势显著。海光DCU基于大规模并行计算微结构进行设计,具备强大的全精度各种数据格式的算力,片上集成高带宽内存芯片,可以在大规模数据计算过程中提供优异的数据处理能力,适用于广泛的应用场景,海光DCU能够支持全精度模型训练。公司产品采用高带宽低延时 Chiplet 互联技术,不断提升计算性能。海光CPU兼容x86指令集,海光DCU兼容“类CUDA”环境,具有优异的生态系统优势;公司主动融入国内外开源社区,积极向开源社区提供适用于海光CPU及DCU的适配和优化方案,保证了海光高端处理器在开源生态的兼容性。公司在金融、电信、交通等国民经济关键领域初步形成了基于海光CPU及DCU的完善的国产软硬件生态链。
人工智能运算加速以GPGPU为主要解决方案,大模型有望推动海光DCU业务保持快速增长。由于GPGPU具有通用性和软件生态优势,人工智能运算加速以GPGPU为主要解决方案,AI将推动国内GPGPU市场高速增长。海光DCU主要部署在服务器集群或数据中心,支撑高复杂度和高吞吐量的数据处理任务。在AIGC持续快速发展的时代背景下,海光DCU 能够支持全精度模型训练,实现了LLaMa、GPT、Bloom、ChatGLM、悟道、紫东太初等为代表的大模型的全面应用,与国内包括文心一言、通义千问等大模型全面适配,达到国内领先水平,大模型有望推动海光DCU业务保持快速增长。
风险提示:国际地缘政治冲突加剧风险;行业竞争加剧风险;下游需求不及预期;新产品研发进展不及预期。
4.3. 芯原股份
芯原股份为国内半导体IP龙头企业,打造一站式芯片定制平台。芯原是一家依托自主半导体IP,为客户提供平台化、全方位、一站式芯片定制服务和半导体IP授权服务的企业。基于自有的IP,公司已拥有丰富的面向AI应用的软硬件芯片定制平台解决方案,涵盖如智能手表、AR/VR眼镜、AI PC、AI手机、智慧汽车、机器人等端侧计算设备,以及数据中心/服务器等高性能云侧计算设备。基于公司独有的芯片设计平台即服务经营模式,目前公司主营业务的应用领域广泛包括消费电子、汽车电子、计算机及周边、工业、数据处理、物联网等,主要客户包括芯片设计公司、IDM、系统厂商、大型互联网公司、云服务提供商等。根据IPnest的数据,2023年芯原IP授权业务市场占有率位列中国第一,全球第八;2023年芯原的知识产权授权使用费收入排名全球第六;芯原IP种类在全球排名前十的IP企业中排名前二。
2024年公司营收基本持平,持续加大研发投入。2024年上半年,半导体产业逐步复苏,得益于公司独特的商业模式,即原则上无产品库存的风险,无应用领域的边界,公司自24Q2起,经营情况快速扭转,公司24Q2营业收入规模同比恢复到受行业周期影响前水平,24Q3营业收入创历年三季度收入新高,同比增长23.60%,24Q4收入同比增长超17%,全年营业收入预计基本持平。根据公司2024年业绩快报,公司2024年实现营业收入23.23亿元,同比下降0.66%;归母净利润为-6.05亿元,同比增亏;扣非后归母净利润为-6.44亿元,同比增亏。由于在产业下行周期客户项目短期有所减少,公司较以往加大了研发投入的比重,2024年研发费用同比增加约32%。
公司IP储备丰富,是中国排名第一的半导体IP供应商。公司拥有自主可控的图形处理器 IP(GPU IP)、神经网络处理器 IP(NPU IP)、视频处理器IP(VPU IP)、数字信号处理器 IP(DSP IP)、图像信号处理器 IP(ISP IP)和显示处理器IP(Display Processor IP)这六类处理器IP,以及1600多个数模混合IP和射频IP。根据IPnest的数据,从半导体IP销售收入角度,芯原是2023年中国排名第一、全球排名第八的半导体 IP 授权服务提供商;在全球排名前十的企业中,IP种类排名前二;2023年,芯原的知识产权授权使用费收入排名全球第六。随着后续客户产品的逐步量产,公司将进一步提升特许权使用费收入,公司IP授权业务的规模效应将进一步扩大。
公司NPU及GPU IP广泛应用于AI芯片中,有望充分受益AI算力需求爆发浪潮。芯原的NPU IP已被72家客户用于其128 款人工智能芯片中,集成了芯原NPU IP的AI类芯片已在全球范围内出货超过1亿颗,主要应用于物联网、可穿戴设备、智慧电视、智慧家居、安防监控、服务器、汽车电子、智能手机、平板电脑、智慧医疗等领域,奠定了公司在AI领域全球领先的根基。芯原GPU IP已经耕耘嵌入式市场近20年,在多个市场领域中获得了客户的采用,包括数据中心、汽车电子、可穿戴设备、PC等,内置芯原GPU的客户芯片已在全球范围内出货近20亿颗。芯原GPU还可以和公司自主知识产权的神经网络处理技术融合,支持图形渲染、通用计算以及AI处理,为数据中心、云游戏、边缘服务器提供大算力通用处理器平台。公司自主知识产权的通用图形处理器(GPGPU)可以支持大规模通用计算和生成式AI相关应用,现已被客户采用部署至各类高性能AI芯片中,面向数据中心、高性能计算、汽车等应用领域。公司在AI领域全球领先,NPU及GPU IP广泛应用于AI芯片中,有望充分受益AI算力需求爆发浪潮。
公司具有全球领先的芯片设计服务能力,云厂商等大厂自研芯片有望为公司业务发展打开新的成长空间。在一站式芯片定制服务方面,芯原拥有从先进 5nm FinFET、22nm FD-SOI到传统250nm CMOS制程的设计能力,所掌握的工艺可涵盖全球主要晶圆厂的主流工艺、特殊工艺等,已拥有14nm/10nm/7nm/6nm/5nm FinFET和28nm/22nm FD-SOI工艺节点芯片的成功流片经验。为满足面向汽车应用的定制芯片的特殊要求,公司的芯片设计流程已获得ISO 26262汽车功能安全管理体系认证。公司还推出了功能安全(FuSa)SoC平台的总体设计流程,以及基于该平台的ADAS功能安全方案,并搭建了完整的自动驾驶软件平台框架。芯原一站式芯片定制服务业务拥有英特尔、博世、恩智浦、亚马逊、谷歌、微软等优质客户,整体市场认可度不断提高,竞争优势持续增强。近年来,云厂商、互联网厂商、系统厂商因成本、差异化竞争、创新性、掌握核心技术、供应链可控等原因,越来越多地开始设计自有品牌的芯片,大厂自研芯片趋势明显,有望为公司芯片设计服务及IP授权业务的发展打开新的成长空间。
风险提示:半导体IP技术迭代不及预期风险;行业竞争加剧风险;下游需求不及预期;国际地缘政治冲突加剧风险。
4.4. 翱捷科技-U
翱捷科技为国内提供无线通信、超大规模芯片的平台型芯片企业。公司成立于2015年,专注于无线通信芯片的研发和技术创新,是一家提供无线通信、超大规模芯片的平台型芯片企业。公司同时拥有2G/3G/4G/5G全制式蜂窝基带芯片及多协议非蜂窝物联网芯片研发设计实力,且具备提供超大规模高速SoC芯片定制及半导体IP授权服务能力。公司产品及服务包含芯片产品、芯片定制服务及半导体IP 授权,广泛应用于智能手机、智能可穿戴设备、智能支付、智能家居、车联网、智能支付、工业物联网、智慧安防、智能电网、人工智能等领域。
公司2024年营收实现高速增长,股权激励费用增加等因素影响净利润。2024年,公司芯片产品持续迭代,产品系列日趋丰富,竞争优势彰显;公司继续加大市场开拓力度,尤其是在蜂窝物联网某些细分市场取得突破,芯片销量大幅攀升,带动公司营收实现较大幅度同比增长;由于股权激励形成的股份支付费用同比大幅增加,再加上非经常性收益减少,各项减值计提增多,导致公司亏损额较上年同期有所扩大。根据公司2024年业绩快报,2024年公司实现营业收入33.86亿元,同比增长30.23%;归母净利润为-6.87亿元,同比增亏;扣非后归母净利润为-6.92亿元,同比增亏。
公司掌握全制式蜂窝基带技术及多种非蜂窝无线通信技术,具有极高的技术壁垒。蜂窝基带技术涵盖信号处理、高性能模拟/射频电路、通信协议栈、低功耗电路设计等多个方面,是芯片设计领域最先进、最难掌握的技术之一,技术壁垒极高,全球范围内目前只有极少数公司具备这个能力。翱捷科技的蜂窝基带技术已经全面覆盖 2G-5G全制式,是国内极少数具备开发 5G 基带通信芯片实力的企业。公司聚焦于各类无线通信技术,持续进行大额研发投入,公司还掌握WiFi、蓝牙、LoRa、全球导航定位等多种非蜂窝无线通信技术,构建起丰富、完整的无线通信芯片研发体系,在信号处理、高性能模拟/射频电路、通信协议栈、低功耗电路设计等多个方面拥有了大量的自研IP,公司掌握了超大规模数模混合集成电路、射频芯片、基带射频一体化集成技术及超低功耗SoC芯片设计等多项核心设计技术。
公司深耕蜂窝基带及非蜂窝物联网市场,芯片出货量高速增长。公司持续深耕蜂窝基带及非蜂窝物联网市场,各产品系列不断迭代和丰富化,市场触角更深更广。2024年上半年,公司蜂窝基带主芯片销售数量同比增长超过80%,非蜂窝物联网芯片销量同比增长超过70%;在智能可穿戴市场,公司积极布局新项目研发,在通信、续航、集成度、算法等方面持续取得突破;智能Android手表凭借芯片的高集成度和低功耗优势,已实现量产;儿童手表在全球市场表现强劲,与以飞利浦为代表的多个品牌商建立更深度的合作,进一步扩大市场份额;成人手表同各地主流品牌商深化合作,在欧洲、拉丁美洲和东南亚市场表现活跃。
智能手机市场空间广阔,公司在智能手机领域实现突破。根据Canalys的数据,2024年全球智能手机出货量达到12.2亿部,同比增长7%,实现了在连续两年下滑后的反弹;2024年中国大陆智能手机市场出货量达2.85亿台,同比增长4%。公司首款智能手机芯片 ASR8601携手Logicmobility L65A手机,首秀登陆拉丁美洲市场;该芯片采用Arm Cortex-A55处理器,支持包括FDD/TDD LTE/GSM/EDGE/WCDMA多制式蜂窝通信,支持Volte,向用户提供高质量、更自然的语音通话效果以及更流畅的移动网络体验;自研Camera硬件 3D降噪算法令用户即使在暗光下依旧保持高清晰度的录像和拍照效果,美颜算法在GPU的加持下呈现效果更好,速度更快。在拉丁美洲市场的成功出货是公司全球化战略的重要一步,也是公司智能手机业务长期发展的坚实基础。
公司已为多家AI企业定制ASIC芯片,大型芯片设计能力得到大量客户的认可。芯片定制服务是指根据客户的需求,为客户设计专门定制化的芯片。该服务面对的主要客户包括人工智能算法企业、互联网企业、大数据企业、工业控制类企业等。公司拥有强大的平台级芯片设计能力,能为客户提供芯片架构定义、芯片设计、封装测试、量产可靠性认证、量产运营及配套软件开发的全套解决方案,满足其对特定芯片的定制化需求,提高产品竞争力。公司已为登临科技、美国Moffett等多家AI企业提供芯片定制服务,公司成熟的大型芯片设计能力得到诸多行业头部客户的认可。2024年上半年,公司芯片定制业务实现营收2.34亿元,同比增长 97.71%。在IP授权业务方面,完成对多个客户的高端多媒体IP授权和高性能模拟IP授权,取得了良好的经济效益,24H1公司IP授权业务实现营收5377.30万元,同比增长125.87%。
风险提示:行业竞争加剧风险;新产品研发进展不及预期风险;下游需求不及预期。
4.5. 中芯国际
中芯国际为中国大陆晶圆代工龙头企业。公司成立于2000年,主要为客户提供基于多种技术节点、不同工艺平台的集成电路晶圆代工及配套服务。公司是全球领先的集成电路晶圆代工企业之一,也是中国大陆集成电路制造业的领导者,拥有领先的工艺制造能力、产能优势和服务配套;根据全球各纯晶圆代工企业最新公布的2024年销售额情况,中芯国际位居全球第二,在中国大陆企业中排名第一。公司建立全球化的服务基地与运营网络,已在上海、北京、天津、深圳建设多座8英寸及12英寸晶圆厂;公司成功开发了0.35微米至14纳米多种技术节点,应用于不同工艺平台,具备逻辑电路、电源/模拟、高压驱动、嵌入式非挥发性存储、非易失性存储、混合信号/射频、图像传感器等多个工艺平台的量产能力,可为客户提供通讯产品、消费品、汽车、工业、计算机等不同终端应用领域的集成电路晶圆代工及配套服务。
2024年公司营收创历史新高,并持续加大研发投入。2024年,半导体市场整体呈现复苏态势,智能手机、个人电脑、消费电子等终端产品市场逐步企稳回升,智能穿戴、物联网设备等新兴市场需求持续扩张,成为推动半导体行业增长的重要力量。在整体处于行业上行周期的大环境下,公司把握日益增长的在地制造需求,通过快速识别客户市场份额的增量品类,积极主动地响应客户需求变化,及时调整产品组合,并聚焦技术创新和工艺优化,推动公司营收创历史新高。2024年,公司实现营业收入577.96 亿元,同比增长 27.7%;实现归母净利润36.99亿元,同比下降23.31%;实现毛利率为18.59%,同比下降3.3%;实现净利率为9.30%,同比下降4.84%。公司持续加大研发投入,2024年公司研发投入达54.5亿元,同比增长9.1%,占营业收入比例为9.4%。
公司下游应用领域以消费类为主,12英寸晶圆销售占比较高。在下游应用领域方面,2024年公司智能手机收入占比28%,电脑与平板占比16%,消费电子占比38%,互联与可穿戴占比10%,工业与汽车占比8%。2024年公司12英寸晶圆销售收入占比77%,8英寸晶圆占比23%。
公司具备中国大陆最为领先的先进制程技术,有望充分受益于AI算力芯片国产化浪潮。近年来美国对半导体先进制造、先进制程半导体设备、先进计算芯片等出口管制不断升级,2025年1月,美国BIS更新了半导体出口管制措施,针对于先进逻辑集成电路是采用“16nm/14nm节点”及以下工艺、或采用非平面晶体管架构生产的逻辑集成电路,采取更多审查和规范;在此背景下,中国大陆芯片厂商获取先进制程的难度逐步加大。在先进制程领域,中芯国际具备中国大陆最为领先的先进制程技术,是中国大陆第一家实现14纳米FinFET量产的晶圆代工企业,也是国内极为稀缺的先进制程晶圆代工厂;AI算力需求旺盛,AI算力芯片国产替代加速推进,公司有望充分受益于AI算力芯片国产化浪潮。
4.6. 长电科技
长电科技为中国大陆封测龙头企业。公司成立于1972年,是全球领先的集成电路制造与技术服务提供商,向全球半导体客户提供全方位的芯片成品制造一站式服务,涵盖微系统集成、设计仿真、晶圆中测、芯片及器件封装、成品测试、产品认证以及全球直运等服务。公司在中国、韩国及新加坡设有八大生产基地和两大研发中心,在20多个国家和地区设有业务机构,可与全球客户进行紧密的技术合作并提供高效的产业链支持。通过高集成度的晶圆级WLP、2.5D/3D、系统级(SiP)封装技术和高性能的Flip Chip和引线互联封装技术,长电科技的产品、服务和技术涵盖了主流集成电路系统应用,包括网络通讯、移动终端、高性能计算、汽车电子、大数据存储、人工智能与物联网、工业智造等领域。根据芯思想研究院(ChipInsights)发布的2023年全球委外封测(OSAT)榜单,长电科技营收在全球前十大OSAT厂商中排名第三,中国大陆第一。
24Q3单季度营收创历史新高,产品结构变化等因素影响短期毛利率。2024年以来,公司旗下工厂运营回升,产能利用率持续提升,各应用板块业务均实现复苏企稳,通讯、消费、运算及汽车电子四大应用前三季度收入同比增幅均达双位数;2024年前三季度公司实现营收249.78亿元,同比增长22.26%,归母净利润10.76亿元,同比增长10.55%;2024年三季度单季公司实现营收94.91亿元,同比增长14.95%,环比增长9.80%,归母净利润4.57亿元,同比下降4.39%,环比下降5.57%,公司三季度营收创历史新高。由于公司产品结构变化等因素影响短期毛利率,公司2024年前三季度实现毛利率为12.93%,同比下降0.94%,24Q3毛利率为12.23%,同比下降2.13%,环比下降2.05%;公司2024年前三季度实现净利率为4.29%,同比下降0.48%,24Q3净利率为4.78%,同比下降1.01%,环比下降0.81%。
聚焦高性能先进封装,有望推动公司业绩持续增长。在高性能先进封装领域,公司推出的XDFOI Chiplet 高密度多维异构集成系列工艺已按计划进入稳定量产阶段,该技术是一种面向 Chiplet的极高密度、多扇出型封装高密度异构集成解决方案,其利用协同设计理念实现了芯片成品集成与测试一体化,涵盖2D、2.5D、3D集成技术,公司持续推进其多样化方案的研发及生产。经过持续研发与客户产品验证,公司XDFOI技术不断取得突破,已在高性能计算、人工智能、5G、汽车电子等领域应用,为客户提供了外型更轻薄、数据传输速率更快、功率损耗更小的芯片成品制造解决方案,满足日益增长的终端市场需求。公司聚焦高性能先进封装,强化创新升级,随着半导体行业景气度的回暖,有望推动业绩持续增长。
收购晟碟半导体完成交割,提升公司存储器封测全球竞争力。公司收购晟碟半导体(上海)有限公司 80%股权已于2024年9月28日完成交割,并于交割当日将其纳入公司合并范围。根据TrendForce的数据,2024年第二季度三星、SK海力士、铠侠、美光分别以36.9%、22.1%、13.8%、11.8%的市占率排名全球NAND Flash市场前四,西部数据以10.5%的市占率位列全球第五名;晟碟半导体母公司为西部数据,晟碟半导体在NAND Flash封测方面具有较强的技术优势,产品广泛应用于移动通信、工业与物联网、汽车、智能家居及消费终端等领域。通过收购晟碟半导体,将扩大公司在存储及运算电子领域的市场份额,并与客户建立起更紧密的战略合作关系,提升公司在存储器封测领域的全球竞争力,为公司在全球存储器市场的持续发展和领先地位奠定坚实基础。
风险提示:行业竞争加剧;下游需求复苏不及预期;新技术研发进展不及预期。
5. 风险提示
(1)国际地缘政治冲突加剧风险。半导体产业链具有全球化的特点,国内厂商需要进口部分半导体设备及零部件、材料等,也需要通过境外晶圆厂进行芯片代工,如果国际地缘政治冲突进一步加剧,将会导致部分国内公司采购设备、原材料、产品生产受到限制,进而影响公司的经营业绩。
(2)下游需求不及预期风险。AI算力芯片下游主要应用于云计算与数据中心、边缘计算、消费类电子、智能制造、智能驾驶、 智慧金融、智能教育等领域,因此不可避免地受到宏观经济波动的影响,如果下游需求持续低迷,进而会影响产业链公司的经营业绩。
(3)市场竞争加剧风险。近年来随着人工智能应用及算法的逐步普及,AI算力芯片受到了多家芯片设计龙头企业的重视,AI领域也成为众多初创芯片设计公司发力的重点。随着越来越多的厂商推出AI算力芯片产品,市场竞争将日趋激烈,将会对该领域内公司经营业绩厂商较大影响。
(4)新产品研发进展不及预期风险。AI算力芯片行业新产品和新技术更新迭代较快,国内AI算力芯片产业链公司均需要不断进行研发创新,如果未来国内公司核心技术升级迭代进度和成果未达预期,致使技术水平落后于行业升级换代水平,或者技术创新产品不能契合客户需求,将影响产品竞争力并错失市场发展机会,对国内公司未来业务发展造成不利影响。
(5)国产替代进展不及预期风险。目前国内AI算力芯片国产化率仍相对较低,国内厂商在加速进行国产替代,但由于AI算力芯片生态体系壁垒较高,对国内厂商的技术积累、人才、资金等方面都有较高要求,可能会影响到国产化进度。
证券分析师承诺:
本报告署名分析师具有中国证券业协会授予的证券分析师执业资格,本人任职符合监管机构相关合规要求。本人基于认真审慎的职业态度、专业严谨的研究方法与分析逻辑,独立、客观的制作本报告。本报告准确的反映了本人的研究观点,本人对报告内容和观点负责,保证报告信息来源合法合规。
重要声明: