国产AI芯片：2025年度产品全景解析

市场资讯 2025.10.31 07:53

（来源：智能计算芯世界）

在人工智能产业飞速发展的浪潮中，AI 芯片作为算力基石，其技术突破与产品落地直接决定了 AI 大模型、智能驾驶、机器人等领域的发展上限。当前国产 AI 芯片已形成 “多技术路线并行、场景化深耕” 的格局，从底层关键技术到终端产品，再到企业实践，均展现出强劲的创新活力。本文将系统拆解国产 AI 芯片的核心技术、代表性产品及对应标杆企业，厘清产业发展脉络。

一、AI 芯片关键技术：突破算力、能效与生态瓶颈

国产 AI 芯片的技术创新围绕 “提升算力密度、降低能耗、完善生态适配” 三大核心目标展开，形成了稀疏计算、高精度量化、存算一体、Chiplet 异构集成四大关键技术路线，同时在软件生态与算法协同上持续补位。

1. 稀疏计算：硬件原生优化，破解 “内存墙” 难题

技术原理：AI 模型中大量参数为零值（如 Transformer 层稀疏率超 50%），稀疏计算通过硬件层面的 “零值跳过单元” 与软件层面的 “稀疏模式识别”，减少无效数据搬运与计算操作，从根源降低内存带宽占用与功耗。例如，在矩阵乘法运算中，硬件可自动跳过零值乘法步骤，软件编译器（如 MLIR）则提前标记模型稀疏区域，实现 “无效操作零开销”。技术优势：可提升计算效率 2-4 倍，降低 DRAM 访问功耗 60% 以上，尤其适配推荐系统、自然语言处理等稀疏模型场景。代表企业技术实践：

墨芯人工智能：首创 “双稀疏化算法”，在硬件端集成 SPU（稀疏处理单元），支持 32 倍超高稀疏率，软件端通过稀疏编译器自动优化模型，在 ResNet-50 图像识别任务中，推理性能较传统 GPU 提升 3 倍，功耗降低 50%，其代表产品 Antoum 芯片已应用于智慧交通、生命科学领域。
华为海思：与清华大学联合研发 “稀疏矩阵存储专利”，在昇腾 910C 芯片中内置稀疏计算加速模块，针对大模型训练场景优化数据读写逻辑，使 BERT 模型训练效率提升 40%，已落地华为云智算中心。
寒武纪：申请 “神经网络稀疏方法” 专利，通过动态稀疏剪枝技术，在思元 590 芯片中实现 “计算量减少 30%、功耗降低 25%”，适配智能视觉、边缘推理场景。

2. FP8 高精度量化：平衡性能与效率的 “能效钥匙”

技术原理：传统 AI 计算多采用 FP16（16 位浮点数）精度，FP8（8 位浮点数）通过优化动态范围与精度分配，在保证模型误差 < 5% 的前提下，将计算吞吐量提升 30%、内存带宽需求降低 50%，同时减少芯片晶体管数量，降低制造成本。当前 FP8 已形成 UE8M、FP8E4M3 等行业标准，适配大模型训推全流程。技术优势：为千亿参数大模型 “降本增效”，例如 GPT-4 采用 FP8 训练，可减少 40% 算力消耗，是边缘端部署大模型的关键技术。代表企业技术实践：

摩尔线程：国内首家实现 FP8 算力量产的 GPU 厂商，其 MTT S5000 板卡通过 “动态范围智能适配”“高精度累加器” 设计，在 Transformer 计算中性能提升 30%，2025 年 3 月已批量出货，应用于大模型推理与数字孪生场景。
砺算科技：7G100 系列 GPU 支持 FP8/FP16/FP32 多精度切换，针对不同计算场景动态调整精度 —— 训练阶段用 FP16 保证精度，推理阶段用 FP8 提升效率，已适配工业设计、科学计算客户。
沐曦集成电路：曦云 C600 通用计算 GPU 内置 FP8 张量核心，在智算中心测试中，处理 Qwen-7B 大模型推理时，能效比达 5.2 TOPS/W，较 FP16 精度提升 60%，2025 年进入华为云、腾讯云供应链。

3. 存算一体：重构冯・诺依曼架构，突破 “功耗墙”

技术原理：传统冯・诺依曼架构中，数据需在 “计算单元” 与 “存储单元” 间频繁搬运，功耗占比超 60%。存算一体技术将计算操作嵌入存储单元（如 SRAM、Flash、相变材料 PCM），直接利用存储介质的物理特性（如电流、电阻变化）完成乘加运算，从根源减少数据搬运。技术分类：

近存计算：通过 2.5D/3D 封装缩短存储与计算距离，如特斯拉 Dojo 芯片；
存内计算：直接在存储单元内计算，如基于 PCM 的突触权重存储与计算，能效比更高。

代表企业技术实践：

后摩智能：全球首个实现车规级存算一体芯片量产的企业，其 “鸿途 + 30” 芯片基于 SRAM 存内计算架构，算力密度达 200 TOPS/mm²，能效比 100 TOPS/W，2025 年搭载于小鹏 L4 级自动驾驶车型，支持实时激光雷达点云处理。
知存科技：推出全球首颗大规模量产存算一体芯片 WTM2101，基于 Flash 存储介质，聚焦智能语音、健康监测场景，单芯片可实现离线语音唤醒、心率检测，功耗仅 5mW，已出货超 1000 万颗，客户包括华为、小米。
千芯科技：基于 MRAM（磁阻存储器）开发存算一体 IP 核，支持 128×128 矩阵运算，适配云计算、自动驾驶，2025 年与中国移动合作推出边缘视频处理模块，能效比达传统 GPU 的 50 倍。

4. Chiplet 异构集成：提升算力密度与良率

技术原理：将芯片拆解为计算芯粒（如 NPU 核）、存储芯粒（如 HBM）、I/O 芯粒（如高速互连）等独立模块，通过 2.5D/3D 封装（如 CoWoS、TSV）实现高密度集成，不同模块可采用不同制程（如计算芯粒 7nm、存储芯粒 14nm），降低设计难度与成本，提升良率。技术优势：使超大算力芯片（如万卡级集群）成为可能，例如英伟达 GB200 采用 Chiplet 技术，集成 2 个 GPU 芯粒与 1 个 CPU 芯粒，算力达 5000 TFLOPS。

代表企业技术实践：

华为海思：昇腾 910C 采用 “3D TSV 封装 + Chiplet” 架构，集成 4 个 NPU 芯粒与 HBM3e 存储芯粒，单芯片算力 352 TOPS，通过 CloudMatrix384 超节点技术可扩展至 16 万卡集群，线性度超 95%，落地于国家气象局智算中心。
壁仞科技：BR100 通用 GPU 采用 Chiplet 异构设计，集成 8 个计算芯粒与 4 个 HBM2e 芯粒，片间带宽达 800 GB/s，2025 年在上海智算中心部署万卡集群，支持 GPT-4 训练。
长电科技：作为封测龙头，为国产 AI 芯片提供 CoWoS 封装服务，良率达 90%，支撑沐曦、登临科技等企业的 Chiplet 产品量产。

5. 软件生态：打通 “硬件 - 算法 - 应用” 闭环

技术痛点：国产 AI 芯片曾因软件生态薄弱（如缺乏兼容 PyTorch/TensorFlow 的工具链），导致硬件性能无法释放。当前头部企业通过自研编译器、优化算子库，逐步缩小与国际生态（CUDA）的差距。代表企业技术实践：

华为海思：CANN（异构计算架构）支持昇腾芯片与 MindSpore 框架深度协同，算子覆盖率超 98%，可实现 PyTorch 模型一键迁移，2024 年适配 DeepSeek-R1 大模型，推理效率达英伟达 A100 的 80%。
地平线：OpenExplorer 开发平台提供 “芯片 - 算法 - 工具” 全栈支持，包含 BPU 编译器、模型压缩工具，适配征程系列车规芯片，已吸引超 100 家车企入驻，2025 年新增奇瑞、吉利等定点项目。
平头哥半导体：自研 AI 编译器 “玄铁编译器”，支持 RISC-V 架构芯片与 TensorFlow/PyTorch 兼容，在含光 800 推理芯片上，ResNet-50 模型推理速度达 205 FPS，追平英伟达 V100。

二、AI 芯片核心产品：按场景分类的标杆型号

1. 云端智算芯片：支撑大模型训推

产品型号	企业	制程	核心参数	应用场景
昇腾 910C	华为海思	7nm	352 TOPS（FP16），64GB HBM2，392 GB/s 带宽	智算中心大模型训练（如盘古大模型）
思元 590	寒武纪	7nm	256 TOPS（FP16），支持 MU-Link 多芯互联	云端推理、智能视觉
云燧 T20	燧原科技	7nm	200 TOPS（FP16），适配万卡集群	互联网、金融智算
曦云 C600	沐曦集成电路	7nm	300 TOPS（FP16），支持 FP8 精度	智慧城市、科学计算
BR100	壁仞科技	7nm	512 TOPS（FP16），800 GB/s 片间带宽	超大规模 AI 训练

产品型号

企业

制程

核心参数

应用场景

昇腾 910C

华为海思

7nm

352 TOPS（FP16），64GB HBM2，392 GB/s 带宽

智算中心大模型训练（如盘古大模型）

思元 590

寒武纪

7nm

256 TOPS（FP16），支持 MU-Link 多芯互联

云端推理、智能视觉

云燧 T20

燧原科技

7nm

200 TOPS（FP16），适配万卡集群

互联网、金融智算

曦云 C600

沐曦集成电路

7nm

300 TOPS（FP16），支持 FP8 精度

智慧城市、科学计算

BR100

壁仞科技

7nm

512 TOPS（FP16），800 GB/s 片间带宽

超大规模 AI 训练

2. 车端智驾芯片：适配 L2-L4 级自动驾驶

产品型号	企业	制程	核心参数	应用场景
征程 6P	地平线	7nm	560 TOPS（INT8），205 GB/s 存储带宽	L4 级全场景智驾（奇瑞星途）
A2000	黑芝麻智能	7nm	1000 TOPS（INT8），支持多芯片级联	L3 高阶智驾（蔚来 ET9）
昇腾 610	华为海思	7nm	200 TOPS（FP16），ASIL-D 认证	L2 + 城区智驾（问界 M9）
星辰一号	芯擎科技	7nm	512 TOPS（INT8），多核异构架构	舱驾一体域控制器
J6M	地平线	12nm	128 TOPS（INT8），高性价比	L2 辅助驾驶（比亚迪宋 PLUS）

产品型号

企业

制程

核心参数

应用场景

征程 6P

地平线

7nm

560 TOPS（INT8），205 GB/s 存储带宽

L4 级全场景智驾（奇瑞星途）

A2000

黑芝麻智能

7nm

1000 TOPS（INT8），支持多芯片级联

L3 高阶智驾（蔚来 ET9）

昇腾 610

华为海思

7nm

200 TOPS（FP16），ASIL-D 认证

L2 + 城区智驾（问界 M9）

星辰一号

芯擎科技

7nm

512 TOPS（INT8），多核异构架构

舱驾一体域控制器

J6M

地平线

12nm

128 TOPS（INT8），高性价比

L2 辅助驾驶（比亚迪宋 PLUS）

3. 边缘 AI 芯片：聚焦低功耗与实时性

产品型号	企业	制程	核心参数	应用场景
旭日 6	地平线	12nm	10 TOPS（INT8），能效比 10 TOPS/W	智能摄像头、工业质检
AX8850	爱芯元智	12nm	20 TOPS（INT8），集成 AI ISP	边缘视觉处理、智能穿戴
RK3588	瑞芯微	12nm	6 TOPS（INT8），支持 8K 视频解码	智能家居、边缘计算盒子
WTM2101	知存科技	28nm	0.5 TOPS（INT8），功耗 5mW	智能语音、健康监测
玄铁 910	平头哥	14nm	8 TOPS（INT8），RISC-V 架构	物联网终端、工业控制

产品型号

企业

制程

核心参数

应用场景

旭日 6

地平线

12nm

10 TOPS（INT8），能效比 10 TOPS/W

智能摄像头、工业质检

AX8850

爱芯元智

12nm

20 TOPS（INT8），集成 AI ISP

边缘视觉处理、智能穿戴

RK3588

瑞芯微

12nm

6 TOPS（INT8），支持 8K 视频解码

智能家居、边缘计算盒子

WTM2101

知存科技

28nm

0.5 TOPS（INT8），功耗 5mW

智能语音、健康监测

玄铁 910

平头哥

14nm

8 TOPS（INT8），RISC-V 架构

物联网终端、工业控制

4. GPU 通用计算芯片：追赶国际主流

产品型号	企业	制程	核心参数	应用场景
MTT S5000	摩尔线程	7nm	400 TOPS（FP16），支持 FP8 精度	大模型推理、数字孪生
曦彩 G100	沐曦集成电路	7nm	350 TOPS（FP16），图形渲染优化	云游戏、专业设计
Goldwasser	登临科技	7nm	320 TOPS（FP16），兼容 CUDA	数据中心 AI 加速
天垓 100	天数智芯	7nm	400 TOPS（FP16），训推一体	金融 AI、科学计算
JM9 系列	景嘉微	14nm	50 TOPS（FP16），图形处理专用	航空航天、政务办公

产品型号

企业

制程

核心参数

应用场景

MTT S5000

摩尔线程

7nm

400 TOPS（FP16），支持 FP8 精度

大模型推理、数字孪生

曦彩 G100

沐曦集成电路