新浪财经

英伟达GPU架构全景:从Tesla到Hopper,GPU选型指南

架构师技术联盟

关注

对于AI服务器设计人员而言,选择合适的GPU是决定系统性能、能效和总拥有成本的关键。英伟达作为AI计算领域的领导者,其GPU架构的每一次迭代都标志着计算能力的飞跃。理解从Tesla到Hopper的架构演进,不仅关乎于识别峰值算力,更关乎于理解其核心计算范式(如Tensor Core的引入)、内存子系统与互联技术的进步。本文将以计算架构为中心,梳理其演进路径、关键产品规格,并为选型提供系统性建议。

一、计算架构的奠基与萌芽期

1. Tesla架构 (2006-2009)

  • 定位与特性: 这是英伟达GPGPU的起点。Tesla架构首次引入了统一的着色器架构,可通过CUDA(2006年发布)进行通用并行计算。此时尚无专用的AI计算单元,所有计算均在CUDA Core上完成。

  • 代表产品: Tesla C1060 / T10

  • 关键规格

    • 流处理器(CUDA Core): 240个

    • 单精度浮算力(FP32): 933 GFLOPs

    • 内存: 4GB GDDR3

    • 互联: PCIe 2.0

  • 选型意义: 历史意义大于实用意义,标志着GPU可用于通用计算。

2. Fermi架构 (2010-2012)

  • 定位与特性: 首个完整的GPU计算架构。引入了真正的缓存层次结构(L1/L2 Cache),支持ECC显存,提升了双精度(FP64)性能。它是真正为数据中心设计的架构雏形。

  • 代表产品: Tesla M2090

  • 关键规格

    • CUDA Core: 512个

    • FP32算力: 1.33 TFLOPs

    • FP64算力: 665 GFLOPs (1:2 FP64/FP32比率)

    • 内存: 6GB GDDR5 with ECC

    • 互联: PCIe 2.0

  • 选型意义: 为科学计算和HPC奠定了基础,但其AI推理/训练效率极低。

二、现代AI计算的启蒙与爆发期

3. Kepler架构 (2012-2014)

  • 定位与特性: 追求性能与功耗的平衡。引入了GPUDirect技术,降低了GPU与第三方设备(如网卡)的通信延迟。虽然仍无专用AI核心,但其强大的FP32性能为早期深度学习研究提供了可能。

  • 代表产品: Tesla K80 (双芯显卡)

  • 关键规格(每颗GPU):

    • CUDA Core: 2496个

    • FP32算力: 2.91 TFLOPs

    • 内存: 12GB GDDR5 (每GPU,板卡共24GB)

    • 互联: PCIe 3.0

  • 选型意义: 许多早期AI模型(如AlexNet)在Kepler及类似架构的GPU上被证明是可行的,开启了AI的“暴力计算”时代。

4. Maxwell架构 (2014-2016)

  • 定位与特性: 极致能效优化。通过优化调度器和缓存结构,在相同的功耗下提供了比Kepler更高的性能。为后续架构的能效设计铺平了道路。

  • 代表产品: Tesla M40

  • 关键规格

    • CUDA Core: 3072个

    • FP32算力: 7 TFLOPs

    • 内存: 12GB / 24GB GDDR5

    • 互联: PCIe 3.0

  • 选型意义: M40后期被广泛用于AI推理,因其在INT8精度下具有良好的能效。

三、AI计算的专业化与范式确立期

5. Pascal架构 (2016-2017) :AI计算的第一次飞跃

  • 定位与特性

    • NVLink 1.0: 首次引入高速GPU互联技术,大幅提升多GPU间带宽。

    • HBM2: 在旗舰卡上引入高带宽内存,解决内存墙问题。

    • 16nm FinFET工艺: 带来巨大的能效提升。

  • 代表产品: Tesla P100 (有NVLink和PCIe两个版本)

  • 关键规格

    • CUDA Core: 3584个

    • FP32算力: 10.6 TFLOPs

    • FP16算力: 21.2 TFLOPs (无专用单元,仅为FP32的2倍)

    • 内存: 16GB HBM2

    • 内存带宽: 732 GB/s

    • 互联: NVLink 1.0 (160 GB/s) / PCIe 3.0

  • 选型意义: P100是首款为AI和HPC量身定制的数据中心GPU,其NVLink和HBM2奠定了现代AI服务器的基本形态。

6. Volta架构 (2017-2020) :革命性的Tensor Core到来

  • 定位与特性

    • Tensor Core: 革命性创新!专为矩阵运算设计的核心,支持混合精度训练,极大提升了FP16和INT8的算力。

    • NVLink 2.0: 带宽翻倍。

    • HBM2: 容量和带宽继续提升。

    • 首次集成NVSwitch于DGX-2中,实现多GPU全互联。

  • 代表产品: Tesla V100 (SXM2和PCIe形态)

  • 关键规格

    • CUDA Core: 5120个

    • 张量核心: 640个

    • FP32算力: 15.7 TFLOPs

    • FP16算力(Tensor Core): 125 TFLOPs

    • INT8算力(Tensor Core): ~250 TOPS

    • 内存: 16GB/32GB HBM2

    • 内存带宽: 900 GB/s

    • 互联: NVLink 2.0 (300 GB/s)

  • 选型意义: V100是AI训练领域的里程碑。 其Tensor Core使得训练大型模型从“可能”变为“高效”,至今仍在许多数据中心服役。选择V100意味着拥抱了成熟的AI计算范式。

四、AI计算的规模化与普及期

7. Turing架构 (2018-2020) :推理的革新

  • 定位与特性

    • 张量核心升级: 引入INT4和INT1精度支持,并增强INT8/FP16性能。

    • RT Core: 专注于光追,对AI服务器选型意义不大。

    • 虽然主打消费市场,但其专业卡在推理场景表现出色。

  • 代表产品: Tesla T4 (低功耗推理卡)

  • 关键规格

    • CUDA Core: 2560个

    • 张量核心: 320个

    • FP32算力: 8.1 TFLOPs

    • INT8算力(Tensor Core): 130 TOPS

    • INT4算力(Tensor Core): 260 TOPS

    • 内存: 16GB GDDR6

    • 功耗: 仅70W

  • 选型意义: T4是边缘推理和云上推理的标杆产品。 其极佳的能效比非常适合高密度、低延迟的推理服务器。

8. Ampere架构 (2020-2022) :通用性与AI性能的完美结合

  • 定位与特性

    • 第三代Tensor Core: 支持TF32、FP64 Tensor Core,以及稀疏化加速,AI性能暴增。

    • 结构性稀疏: 利用2:4的稀疏模式,理论上使稀疏模型的算力翻倍。

    • NVLink 3.0: 带宽再次大幅提升。

    • 多实例GPU(MIG): 可将一块物理GPU分割为多个独立、安全的实例,提升资源利用率。

    • A100 40GB/80GB: 采用HBM2e。

  • 代表产品: Tesla A100 40GB/80GB PCIe & SXM4

  • 关键规格(A100 80GB SXM):

    • CUDA Core: 6912个

    • 张量核心: 432个

    • FP32算力: 19.5 TFLOPs

    • TF32算力(Tensor Core, 稀疏): 312 TFLOPs

    • FP16/BF16算力(Tensor Core, 稀疏): 624 TFLOPs

    • INT8算力(Tensor Core, 稀疏): 1248 TOPS

    • 内存: 80GB HBM2e

    • 内存带宽: 2 TB/s

    • 互联: NVLink 3.0 (600 GB/s), NVSwitch

  • 选型意义: A100是当前AI数据中心(训练和大型模型推理)的绝对主力。 其强大的算力、巨大的内存和带宽,以及MIG特性,使其成为构建大规模AI集群的首选。80GB版本尤其适合无法完全切分的大模型。

五、AI计算的下一代:Transformer引擎与芯片互联

9. Hopper架构 (2022-至今) :面向巨型AI模型的架构

  • 定位与特性

    • Transformer引擎: 革命性技术,动态管理FP8、FP16精度,针对Transformer模型(如GPT、BERT)进行硬件级优化,提供数量级性能提升。

    • 第二代MIG: 支持更细粒度和安全的隔离。

    • NVLink 4.0: 高达900 GB/s的GPU间互联带宽。

    • 机密计算: 支持硬件级内存加密,满足更高安全需求。

    • HBM3: 更高带宽和容量。

  • 代表产品: H100 80GB SXM5 / PCIe 5.0

  • 关键规格(H100 80GB SXM5):

    • CUDA Core: ~14592个 (估算,基于GH100大核)

    • 张量核心: 第四代, 专为FP8优化

    • FP32算力: ~67 TFLOPs (估算)

    • FP8算力(Transformer Engine): ~3.9 PetaFLOPs (约4000 TFLOPs)

    • FP16算力(Transformer Engine): ~1.9 PetaFLOPs

    • 内存: 80GB HBM3

    • 内存带宽: 3.35 TB/s

    • 互联: NVLink 4.0 (900 GB/s), PCIe 5.0

  • 选型意义: H100是专为万亿参数级别大模型训练和推理设计的终极武器。 对于从事前沿AI研究与部署的机构,H100是构建下一代AI超算的唯一选择。其FP8性能和Transformer引擎是应对未来AI算力需求的关键。

六、AI服务器GPU选型决策指南

考量维度关键问题推荐架构/产品
1. 工作负载类型主要是AI训练大规模/前沿模型:

 Hopper (H100)

主流/通用模型: Ampere (A100)

预算有限/遗留系统: Volta (V100)

主要是AI推理高吞吐、云原生:

 Turing (T4)

大模型/低延迟: Ampere (A100)

极致性能(大模型): Hopper (H100)

主要是HPC高FP64需求:

 Ampere (A100, 其FP64性能强)

通用计算: 根据预算和功耗选择Ampere或Pascal之后架构

2. 模型规模与精度模型参数量<10B参数:

 A100 / V100

10B - 100B+参数: A100 80GB

>100B参数/Transformer类:H100(首选)

常用精度?FP16/BF16训练:

 V100, A100, H100

FP8训练/推理:H100(唯一官方支持)

INT8/INT4推理: T4, A100, H100

3. 系统架构与扩展性需要多卡协作必须支持NVLink/NVSwitch:

 V100, A100, H100 (SXM形态最佳)

需要资源隔离需要MIG:

 A100, H100

服务器形态主流机架服务器:

 PCIe卡 (A100 PCIe, T4)

AI超算/一体机: SXM模组 (A100 SXM, H100 SXM)

4. 总拥有成本预算限制高性能:

 A100 (性价比之选)

低成本推理: T4

二手市场: V100 (需注意功耗和保修)

无预算上限/追求极致: H100

功耗与散热严格限制:

 T4 (70W)

标准机架: A100 PCIe (250W-300W)

专用散热: A100/H100 SXM (400W-700W)

总结与趋势展望

英伟达GPU架构的演进清晰地指向了专业化、规模化与智能化。从通用的CUDA Core到专用的Tensor Core,再到为特定模型优化的Transformer Engine,计算效率呈指数级提升。同时,内存带宽和互联技术成为释放芯片算力的关键瓶颈。

对于AI服务器设计人员,选型不应仅看峰值算力,而应进行端到端的考量

  • 当前任务: 你的工作负载是训练还是推理?模型多大?精度要求如何?

  • 系统瓶颈: 你的系统是计算瓶颈、内存瓶颈还是互联瓶颈?

  • 未来演进: 你的业务是否需要为下一代Transformer大模型做准备?

基于此,Ampere A100 目前仍是平衡性能、功能与成本的“全能冠军”,而 Hopper H100 则是面向未来、决胜大模型时代的“战略武器”。在做出最终决策前,强烈建议使用实际工作负载在目标平台上进行基准测试,以获得最直接的性能数据。

加载中...