国产AI芯片:2025年度产品全景解析
(来源:智能计算芯世界)
在人工智能产业飞速发展的浪潮中,AI 芯片作为算力基石,其技术突破与产品落地直接决定了 AI 大模型、智能驾驶、机器人等领域的发展上限。当前国产 AI 芯片已形成 “多技术路线并行、场景化深耕” 的格局,从底层关键技术到终端产品,再到企业实践,均展现出强劲的创新活力。本文将系统拆解国产 AI 芯片的核心技术、代表性产品及对应标杆企业,厘清产业发展脉络。
一、AI 芯片关键技术:突破算力、能效与生态瓶颈
国产 AI 芯片的技术创新围绕 “提升算力密度、降低能耗、完善生态适配” 三大核心目标展开,形成了稀疏计算、高精度量化、存算一体、Chiplet 异构集成四大关键技术路线,同时在软件生态与算法协同上持续补位。
1. 稀疏计算:硬件原生优化,破解 “内存墙” 难题
技术原理:AI 模型中大量参数为零值(如 Transformer 层稀疏率超 50%),稀疏计算通过硬件层面的 “零值跳过单元” 与软件层面的 “稀疏模式识别”,减少无效数据搬运与计算操作,从根源降低内存带宽占用与功耗。例如,在矩阵乘法运算中,硬件可自动跳过零值乘法步骤,软件编译器(如 MLIR)则提前标记模型稀疏区域,实现 “无效操作零开销”。技术优势:可提升计算效率 2-4 倍,降低 DRAM 访问功耗 60% 以上,尤其适配推荐系统、自然语言处理等稀疏模型场景。代表企业技术实践:
- 墨芯人工智能:首创 “双稀疏化算法”,在硬件端集成 SPU(稀疏处理单元),支持 32 倍超高稀疏率,软件端通过稀疏编译器自动优化模型,在 ResNet-50 图像识别任务中,推理性能较传统 GPU 提升 3 倍,功耗降低 50%,其代表产品 Antoum 芯片已应用于智慧交通、生命科学领域。
- 华为海思:与清华大学联合研发 “稀疏矩阵存储专利”,在昇腾 910C 芯片中内置稀疏计算加速模块,针对大模型训练场景优化数据读写逻辑,使 BERT 模型训练效率提升 40%,已落地华为云智算中心。
- 寒武纪:申请 “神经网络稀疏方法” 专利,通过动态稀疏剪枝技术,在思元 590 芯片中实现 “计算量减少 30%、功耗降低 25%”,适配智能视觉、边缘推理场景。
2. FP8 高精度量化:平衡性能与效率的 “能效钥匙”
技术原理:传统 AI 计算多采用 FP16(16 位浮点数)精度,FP8(8 位浮点数)通过优化动态范围与精度分配,在保证模型误差 < 5% 的前提下,将计算吞吐量提升 30%、内存带宽需求降低 50%,同时减少芯片晶体管数量,降低制造成本。当前 FP8 已形成 UE8M、FP8E4M3 等行业标准,适配大模型训推全流程。技术优势:为千亿参数大模型 “降本增效”,例如 GPT-4 采用 FP8 训练,可减少 40% 算力消耗,是边缘端部署大模型的关键技术。代表企业技术实践:
- 摩尔线程:国内首家实现 FP8 算力量产的 GPU 厂商,其 MTT S5000 板卡通过 “动态范围智能适配”“高精度累加器” 设计,在 Transformer 计算中性能提升 30%,2025 年 3 月已批量出货,应用于大模型推理与数字孪生场景。
- 砺算科技:7G100 系列 GPU 支持 FP8/FP16/FP32 多精度切换,针对不同计算场景动态调整精度 —— 训练阶段用 FP16 保证精度,推理阶段用 FP8 提升效率,已适配工业设计、科学计算客户。
- 沐曦集成电路:曦云 C600 通用计算 GPU 内置 FP8 张量核心,在智算中心测试中,处理 Qwen-7B 大模型推理时,能效比达 5.2 TOPS/W,较 FP16 精度提升 60%,2025 年进入华为云、腾讯云供应链。
3. 存算一体:重构冯・诺依曼架构,突破 “功耗墙”
技术原理:传统冯・诺依曼架构中,数据需在 “计算单元” 与 “存储单元” 间频繁搬运,功耗占比超 60%。存算一体技术将计算操作嵌入存储单元(如 SRAM、Flash、相变材料 PCM),直接利用存储介质的物理特性(如电流、电阻变化)完成乘加运算,从根源减少数据搬运。技术分类:
- 近存计算:通过 2.5D/3D 封装缩短存储与计算距离,如特斯拉 Dojo 芯片;
- 存内计算:直接在存储单元内计算,如基于 PCM 的突触权重存储与计算,能效比更高。
代表企业技术实践:
- 后摩智能:全球首个实现车规级存算一体芯片量产的企业,其 “鸿途 + 30” 芯片基于 SRAM 存内计算架构,算力密度达 200 TOPS/mm²,能效比 100 TOPS/W,2025 年搭载于小鹏 L4 级自动驾驶车型,支持实时激光雷达点云处理。
- 知存科技:推出全球首颗大规模量产存算一体芯片 WTM2101,基于 Flash 存储介质,聚焦智能语音、健康监测场景,单芯片可实现离线语音唤醒、心率检测,功耗仅 5mW,已出货超 1000 万颗,客户包括华为、小米。
- 千芯科技:基于 MRAM(磁阻存储器)开发存算一体 IP 核,支持 128×128 矩阵运算,适配云计算、自动驾驶,2025 年与中国移动合作推出边缘视频处理模块,能效比达传统 GPU 的 50 倍。
4. Chiplet 异构集成:提升算力密度与良率
技术原理:将芯片拆解为计算芯粒(如 NPU 核)、存储芯粒(如 HBM)、I/O 芯粒(如高速互连)等独立模块,通过 2.5D/3D 封装(如 CoWoS、TSV)实现高密度集成,不同模块可采用不同制程(如计算芯粒 7nm、存储芯粒 14nm),降低设计难度与成本,提升良率。技术优势:使超大算力芯片(如万卡级集群)成为可能,例如英伟达 GB200 采用 Chiplet 技术,集成 2 个 GPU 芯粒与 1 个 CPU 芯粒,算力达 5000 TFLOPS。
代表企业技术实践:
- 华为海思:昇腾 910C 采用 “3D TSV 封装 + Chiplet” 架构,集成 4 个 NPU 芯粒与 HBM3e 存储芯粒,单芯片算力 352 TOPS,通过 CloudMatrix384 超节点技术可扩展至 16 万卡集群,线性度超 95%,落地于国家气象局智算中心。
- 壁仞科技:BR100 通用 GPU 采用 Chiplet 异构设计,集成 8 个计算芯粒与 4 个 HBM2e 芯粒,片间带宽达 800 GB/s,2025 年在上海智算中心部署万卡集群,支持 GPT-4 训练。
- 长电科技:作为封测龙头,为国产 AI 芯片提供 CoWoS 封装服务,良率达 90%,支撑沐曦、登临科技等企业的 Chiplet 产品量产。
5. 软件生态:打通 “硬件 - 算法 - 应用” 闭环
技术痛点:国产 AI 芯片曾因软件生态薄弱(如缺乏兼容 PyTorch/TensorFlow 的工具链),导致硬件性能无法释放。当前头部企业通过自研编译器、优化算子库,逐步缩小与国际生态(CUDA)的差距。代表企业技术实践:
- 华为海思:CANN(异构计算架构)支持昇腾芯片与 MindSpore 框架深度协同,算子覆盖率超 98%,可实现 PyTorch 模型一键迁移,2024 年适配 DeepSeek-R1 大模型,推理效率达英伟达 A100 的 80%。
- 地平线:OpenExplorer 开发平台提供 “芯片 - 算法 - 工具” 全栈支持,包含 BPU 编译器、模型压缩工具,适配征程系列车规芯片,已吸引超 100 家车企入驻,2025 年新增奇瑞、吉利等定点项目。
- 平头哥半导体:自研 AI 编译器 “玄铁编译器”,支持 RISC-V 架构芯片与 TensorFlow/PyTorch 兼容,在含光 800 推理芯片上,ResNet-50 模型推理速度达 205 FPS,追平英伟达 V100。
二、AI 芯片核心产品:按场景分类的标杆型号
1. 云端智算芯片:支撑大模型训推
产品型号 | 企业 | 制程 | 核心参数 | 应用场景 |
|---|---|---|---|---|
昇腾 910C | 华为海思 | 7nm | 352 TOPS(FP16),64GB HBM2,392 GB/s 带宽 | 智算中心大模型训练(如盘古大模型) |
思元 590 | 寒武纪 | 7nm | 256 TOPS(FP16),支持 MU-Link 多芯互联 | 云端推理、智能视觉 |
云燧 T20 | 燧原科技 | 7nm | 200 TOPS(FP16),适配万卡集群 | 互联网、金融智算 |
曦云 C600 | 沐曦集成电路 | 7nm | 300 TOPS(FP16),支持 FP8 精度 | 智慧城市、科学计算 |
BR100 | 壁仞科技 | 7nm | 512 TOPS(FP16),800 GB/s 片间带宽 | 超大规模 AI 训练 |
2. 车端智驾芯片:适配 L2-L4 级自动驾驶
产品型号 | 企业 | 制程 | 核心参数 | 应用场景 |
|---|---|---|---|---|
征程 6P | 地平线 | 7nm | 560 TOPS(INT8),205 GB/s 存储带宽 | L4 级全场景智驾(奇瑞星途) |
A2000 | 黑芝麻智能 | 7nm | 1000 TOPS(INT8),支持多芯片级联 | L3 高阶智驾(蔚来 ET9) |
昇腾 610 | 华为海思 | 7nm | 200 TOPS(FP16),ASIL-D 认证 | L2 + 城区智驾(问界 M9) |
星辰一号 | 芯擎科技 | 7nm | 512 TOPS(INT8),多核异构架构 | 舱驾一体域控制器 |
J6M | 地平线 | 12nm | 128 TOPS(INT8),高性价比 | L2 辅助驾驶(比亚迪宋 PLUS) |
3. 边缘 AI 芯片:聚焦低功耗与实时性
产品型号 | 企业 | 制程 | 核心参数 | 应用场景 |
|---|---|---|---|---|
旭日 6 | 地平线 | 12nm | 10 TOPS(INT8),能效比 10 TOPS/W | 智能摄像头、工业质检 |
AX8850 | 爱芯元智 | 12nm | 20 TOPS(INT8),集成 AI ISP | 边缘视觉处理、智能穿戴 |
RK3588 | 瑞芯微 | 12nm | 6 TOPS(INT8),支持 8K 视频解码 | 智能家居、边缘计算盒子 |
WTM2101 | 知存科技 | 28nm | 0.5 TOPS(INT8),功耗 5mW | 智能语音、健康监测 |
玄铁 910 | 平头哥 | 14nm | 8 TOPS(INT8),RISC-V 架构 | 物联网终端、工业控制 |
4. GPU 通用计算芯片:追赶国际主流
产品型号 | 企业 | 制程 | 核心参数 | 应用场景 |
|---|---|---|---|---|
MTT S5000 | 摩尔线程 | 7nm | 400 TOPS(FP16),支持 FP8 精度 | 大模型推理、数字孪生 |
曦彩 G100 | 沐曦集成电路 | 7nm | 350 TOPS(FP16),图形渲染优化 | 云游戏、专业设计 |
Goldwasser | 登临科技 | 7nm | 320 TOPS(FP16),兼容 CUDA | 数据中心 AI 加速 |
天垓 100 | 天数智芯 | 7nm | 400 TOPS(FP16),训推一体 | 金融 AI、科学计算 |
JM9 系列 | 景嘉微 | 14nm | 50 TOPS(FP16),图形处理专用 | 航空航天、政务办公 |
三、标杆企业画像:技术路线与市场定位
1. 华为海思:全栈布局,引领国产智算
- 技术优势:自研达芬奇架构 NPU,CANN 生态覆盖 98% 算子,昇腾系列芯片支持从边缘到云端的全场景部署;
- 核心产品:昇腾 910C(云端训练)、昇腾 610(车端智驾)、昇腾 310(边缘推理);
- 市场表现:2024 年云端 AI 芯片市占率国内第一(35%),昇腾智算集群落地超 50 个国家级项目,与百度、阿里共建大模型训练平台。
2. 地平线:车端龙头,场景化深耕
- 技术优势:自研 BPU(Brain Processing Unit)架构,聚焦车规级芯片,软硬件协同优化智驾算法;
- 核心产品:征程系列(智驾)、旭日系列(边缘),征程 6P 为国内首款量产 L4 级智驾芯片;
- 市场表现:2024 年车端 AI 芯片市占率超 25%,合作车企超 20 家,定点车型超 100 款,2025 年营收预计突破 80 亿元。
3. 寒武纪:AI 专用芯片先行者
- 技术优势:国内首家推出云端 AI 芯片的企业,自研 MLU 架构,支持多芯互联与统一软件生态;
- 核心产品:思元 590(云端)、思元 290(边缘)、思元 190(低功耗);
- 市场表现:2024 年边缘 AI 芯片市占率 18%,客户涵盖联想、浪潮,2025 年推出思元 690,性能较前代提升 2 倍。
4. 壁仞科技:通用 GPU 追赶者
- 技术优势:原创 “训推一体” 芯片架构,BR100 采用 Chiplet 设计,兼容 CUDA 生态;
- 核心产品:BR100(通用 GPU)、BR104(边缘 GPU);
- 市场表现:2025 年在上海智算中心部署万卡集群,支持 GPT-4 训练,与商汤科技、旷视科技达成合作。
5. 后摩智能:存算一体创新者
- 技术优势:全球首个实现车规级存算一体芯片量产,SRAM 存内计算架构能效比领先;
- 核心产品:鸿途 + 30(车端)、鸿途 + 10(边缘);
- 市场表现:2025 年与小鹏、理想达成定点,存算一体芯片出货量预计超 50 万颗,估值超 200 亿元。
四、总结与展望
国产 AI 芯片已在关键技术上实现从 “跟跑” 到 “并跑” 的跨越 —— 稀疏计算、FP8 量化、存算一体等技术打破国际垄断,Chiplet 集成与软件生态逐步完善;产品层面,云端、车端、边缘场景形成全覆盖,部分产品(如华为昇腾 910C、地平线征程 6P)性能接近国际主流水平。
......完整版请参看《2025中国AI芯片分析合集》