新浪财经 股票

华为芯片,让英伟达黄教主坐不住了

市场资讯 2025.07.07 17:05

作 者丨倪雨晴

编 辑丨骆一帆

视频编辑丨柳润瑛

设 计丨黎旭廷

华为的昇腾,让英伟达黄教主都坐不住了。他公开表示,华为昇腾CloudMatrix 384超节点,部分性能上甚至超过英伟达的产品。

华为的384超节点方案,就像全真七子用剑阵打黄药师,集群一起上,黄药师还真有点招架不住。

海外专业机构SemiAnalysis更是直接点名:384超节点的整体计算能力是英伟达GB200机柜的1.6倍!

在单芯片性能受限、制裁持续的情况下,华为昇腾是真能打,还是“自嗨”?它是如何与英伟达竞争的?国产算力究竟到了什么水平?还有什么差距?

今天,我们就带着这些问题,一口气了解对垒英伟达的国产芯片,昇腾。

和英伟达“掰手腕”

昇腾此前非常低调,它是华为打造的一款AI芯片。它不是拿来打游戏的显卡,也不是电脑中的CPU,而是专门针对AI任务的加速芯片NPU,是一颗纯纯的“AI处理器”。

目前昇腾最主力的产品叫“昇腾910”。但以往的昇腾芯片,更多是作为“备胎”使用的——因为美国断供,英伟达、AMD最高端的芯片买不到,很多厂商只能硬着头皮用国产,而昇腾已经是国产芯片中的佼佼者。

过去几年,昇腾其实主要用在AI“推理”环节,也就是模型训练好之后,用它来支持大模型生成内容、聊天等应用环节。但模型训练?说实话——很少用国产芯片,原因也简单:单卡性能弱、生态不够用、系统稳定性差。

但这一切,在2024年和2025年,彻底变了。

华为把昇腾从一个“能用的备胎”,打造成了“能打的主力”,直接上阵训练出了一流大模型。

这些成绩,不是闭门吹牛,而是写进了实打实的论文里——一款模型,用了8192颗昇腾芯片,训练出1350亿参数的稠密大模型“盘古Ultra”;另一款,用了6000多颗芯片,训出了7180亿参数的 MoE(混合专家)大模型。

这意味着:用纯国产AI芯片,也能训练出千亿参数的国产大模型。

但是!光能训还不够,训得好,才叫硬实力。

怎么判断“训得好”?有个关键指标叫 MFU,也就是“算力资源利用率”。

说白了就是:有没有把芯片榨干用满?有没有把投入的算力物尽其用?

训练盘古Ultra稠密模型时,MFU超过 50%;在MoE模型中,MFU也达到了 41%,实验室数据甚至超过 45%。

这是什么概念?——属于全球一流水平,跑在行业前列。

训练完还不够,还要看推理谁跑得快。

华为和硅基流动的最新论文,直接把昇腾的384 超节点拉出来,和英伟达的 H100、H800 正面对比:谁在实战部署 DeepSeek-R1 这类大模型时更快、更高效?

结果是:在这场比拼中,昇腾和英伟达H系列差距不大,甚至在算力利用率上拿下全场最佳。

也就是说——至少从 DeepSeek-R1 的推理实战看,昇腾已经可以对标英伟达 H100 这一级别的产品,不输Hopper架构。

追赶速度之快,确实令人惊叹。

那和英伟达最新的 GB200 比呢?

SemiAnalysis给出了评价:虽然单颗昇腾芯片的性能只有英伟达Blackwell的三分之一,但384 超节点堆了5倍的芯片数量!

最终,整体系统算力反超英伟达 GB200,这已经不是“能替代”的水平,而是“有机会领先”。

那么,昇腾,是怎么做到的?

技术拆解

要理解这个问题,我们得先来认识昇腾的最强战力,“CloudMatrix 384 超节点”这个大家伙。这就是它的外观(画面:384的结构图),它其实就是一个巨大的芯片集合,这最核心的384张昇腾910芯片,外加192颗鲲鹏CPU,通通塞进16个机柜,然后用光缆、光模块联接起来,构成一个“超节点”。

你可以把它想象成一支超级“AI方阵”:虽然单个士兵不如对手,但整体配合、纪律、调度都非常出色。最终打起仗来,不一定会输。

听起来是不是有点像“芯片大拼盘”?但是,要把384块芯片联接在一起,像一台机器一样高效工作、协同配合,这可不简单。

你可能不知道,英伟达目前GB200的机柜,只塞了72块GPU,下一代是144块GPU,

它曾经试图串联256块GPU,但因为联接太复杂、稳定性太差,放弃了。

所以,把384块芯片联成“一个大脑”,是个超级复杂的系统工程。

华为是怎么做到的?一句话——

不是靠单点爆发,而是靠“系统性工程的突破”。

这个“大力出奇迹”的背后,是通信、光学、热学、基础软件等多个领域的老底子,一起发力的结果。

核心突破点包括:

听上去有点技术?咱们展开说说一项很关键的互联技术。

在计算集群里,无论是 CPU、GPU 还是 NPU,最终都需要高效的联接起来,才能交换传输数据。

英伟达有独家的NVLink互联技术,芯片之间是用铜缆连接。

华为呢?制裁之下,没得选,就自己重新定义了全对等的互联总线,统一了通信协议。

什么叫“全对等”?就是说,不是以 CPU 为主,也不是 GPU 说了算,而是所有芯片地位平等,传数据,不需要中转、不需要翻译,大大提高了传输效率。

同时华为选择了用光缆连接芯片,光缆就是靠“光信号”来传输数据。如果说铜缆是“城内公交”,那光缆就是“城际高铁”:速度快、带宽大、延迟低,传得远。

但问题是——光缆贵,光模块贵,维护也麻烦。

所以,英伟达大量使用了铜缆,但是,华为可不怕麻烦,毕竟人家通信起家,光通信就是华为的绝活。于是,华为直接在芯片内建立起“超级高速路”,能联接更多的芯片,组成了384超节点。

当然,这还只是互联部分。背后还有数学算法的调度优化、软硬件的深度协同、工程上的高效散热等等,昇腾也是在一次次的创新中突围。

崛起和差距

用任正非的话来说:“我们单芯片还是落后美国一代,我们用数学补物理、非摩尔补摩尔,用群计算补单芯片,在结果上也能达到实用状况。”

华为聪明地避开了单卡硬碰硬的路径:

单卡差?那我就搞超节点;

HBM内存不够快?那我就堆更多卡,做更高带宽;

没有CUDA?那我就研发CANN;

系统容易宕机?那我做分钟级恢复;

效率太低?那我算力利用率拉到50%;

就像一位华为专家说的:“训练大模型需要大系统,而不是拼单卡。”换句话说,昇腾不是靠“单打独斗”赢,而是靠“团队协作”赢。

那差距呢?当然有。

第一,芯片工艺上,英伟达已经上3纳米。

第二,软件生态,虽然CANN进步了很多,但跟CUDA比还差个历史沉淀。

第三,客户基础和全球开发者社群,英伟达的开发者生态非常庞大。

但昇腾已经打开了一道口子——尤其在中国市场,现在英伟达的H20被限制,很多企业已经在主动适配昇腾等国产芯片。

从国内的AI芯片看,可以大致分为三个派系。一是科技巨头,包括华为昇腾、百度昆仑芯、阿里含光等;二是纯芯片厂商,比如已经上市的寒武纪,比如GPU四小龙燧原科技、沐曦、壁仞科技、摩尔线程;三是面向细分领域,比如车载AI芯片的地平线、黑芝麻等创新企业。

也就是说,我们虽然还在追赶,但不再“被动挨打”,美国再怎么禁芯片、锁制造、压供应,国内半导体产业链反而在压力下迸发。

华为这条昇腾路线,其实是中国市场特色的“技术曲线”:我们目前未必能做出最强单芯片,但我们可以做出系统最优解。

用面积换性能、用堆叠换容量、用协同打组合拳——不是所有问题都要硬刚,有时候,弯道超车更实用。

在AI这场漫长的马拉松里,国产算力真正的逆袭,或许就从昇腾这一步开始。

SFC

本期编辑 江佩佩

21君荐读

加载中...