英伟达GPU架构全景：从Tesla到Hopper，GPU选型指南

架构师技术联盟

2025.10.2707:41

关注

对于AI服务器设计人员而言，选择合适的GPU是决定系统性能、能效和总拥有成本的关键。英伟达作为AI计算领域的领导者，其GPU架构的每一次迭代都标志着计算能力的飞跃。理解从Tesla到Hopper的架构演进，不仅关乎于识别峰值算力，更关乎于理解其核心计算范式（如Tensor Core的引入）、内存子系统与互联技术的进步。本文将以计算架构为中心，梳理其演进路径、关键产品规格，并为选型提供系统性建议。

一、计算架构的奠基与萌芽期

1. Tesla架构 (2006-2009)

定位与特性：这是英伟达GPGPU的起点。Tesla架构首次引入了统一的着色器架构，可通过CUDA（2006年发布）进行通用并行计算。此时尚无专用的AI计算单元，所有计算均在CUDA Core上完成。
代表产品： Tesla C1060 / T10
关键规格：

流处理器（CUDA Core）： 240个
单精度浮算力（FP32）： 933 GFLOPs
内存： 4GB GDDR3
互联： PCIe 2.0

选型意义：历史意义大于实用意义，标志着GPU可用于通用计算。

2. Fermi架构 (2010-2012)

定位与特性：首个完整的GPU计算架构。引入了真正的缓存层次结构（L1/L2 Cache），支持ECC显存，提升了双精度（FP64）性能。它是真正为数据中心设计的架构雏形。
代表产品： Tesla M2090
关键规格：

CUDA Core： 512个
FP32算力： 1.33 TFLOPs
FP64算力： 665 GFLOPs （1:2 FP64/FP32比率）
内存： 6GB GDDR5 with ECC
互联： PCIe 2.0

选型意义：为科学计算和HPC奠定了基础，但其AI推理/训练效率极低。

二、现代AI计算的启蒙与爆发期

3. Kepler架构 (2012-2014)

定位与特性：追求性能与功耗的平衡。引入了GPUDirect技术，降低了GPU与第三方设备（如网卡）的通信延迟。虽然仍无专用AI核心，但其强大的FP32性能为早期深度学习研究提供了可能。
代表产品： Tesla K80 （双芯显卡）
关键规格（每颗GPU）：

CUDA Core： 2496个
FP32算力： 2.91 TFLOPs
内存： 12GB GDDR5 （每GPU，板卡共24GB）
互联： PCIe 3.0

选型意义：许多早期AI模型（如AlexNet）在Kepler及类似架构的GPU上被证明是可行的，开启了AI的“暴力计算”时代。

4. Maxwell架构 (2014-2016)

定位与特性：极致能效优化。通过优化调度器和缓存结构，在相同的功耗下提供了比Kepler更高的性能。为后续架构的能效设计铺平了道路。
代表产品： Tesla M40
关键规格：

CUDA Core： 3072个
FP32算力： 7 TFLOPs
内存： 12GB / 24GB GDDR5
互联： PCIe 3.0

选型意义： M40后期被广泛用于AI推理，因其在INT8精度下具有良好的能效。

三、AI计算的专业化与范式确立期

5. Pascal架构 (2016-2017) ：AI计算的第一次飞跃

定位与特性：

NVLink 1.0：首次引入高速GPU互联技术，大幅提升多GPU间带宽。
HBM2：在旗舰卡上引入高带宽内存，解决内存墙问题。
16nm FinFET工艺：带来巨大的能效提升。

代表产品： Tesla P100 （有NVLink和PCIe两个版本）
关键规格：

CUDA Core： 3584个
FP32算力： 10.6 TFLOPs
FP16算力： 21.2 TFLOPs （无专用单元，仅为FP32的2倍）
内存： 16GB HBM2
内存带宽： 732 GB/s
互联： NVLink 1.0 （160 GB/s） / PCIe 3.0

选型意义： P100是首款为AI和HPC量身定制的数据中心GPU，其NVLink和HBM2奠定了现代AI服务器的基本形态。

6. Volta架构 (2017-2020) ：革命性的Tensor Core到来

定位与特性：

Tensor Core：革命性创新！专为矩阵运算设计的核心，支持混合精度训练，极大提升了FP16和INT8的算力。
NVLink 2.0：带宽翻倍。
HBM2：容量和带宽继续提升。
首次集成NVSwitch于DGX-2中，实现多GPU全互联。

代表产品： Tesla V100 （SXM2和PCIe形态）
关键规格：

CUDA Core： 5120个
张量核心： 640个
FP32算力： 15.7 TFLOPs
FP16算力（Tensor Core）： 125 TFLOPs
INT8算力（Tensor Core）： ~250 TOPS
内存： 16GB/32GB HBM2
内存带宽： 900 GB/s
互联： NVLink 2.0 （300 GB/s）

选型意义： V100是AI训练领域的里程碑。其Tensor Core使得训练大型模型从“可能”变为“高效”，至今仍在许多数据中心服役。选择V100意味着拥抱了成熟的AI计算范式。

四、AI计算的规模化与普及期

7. Turing架构 (2018-2020) ：推理的革新

定位与特性：

张量核心升级：引入INT4和INT1精度支持，并增强INT8/FP16性能。
RT Core：专注于光追，对AI服务器选型意义不大。
虽然主打消费市场，但其专业卡在推理场景表现出色。

代表产品： Tesla T4 （低功耗推理卡）
关键规格：

CUDA Core： 2560个
张量核心： 320个
FP32算力： 8.1 TFLOPs
INT8算力（Tensor Core）： 130 TOPS
INT4算力（Tensor Core）： 260 TOPS
内存： 16GB GDDR6
功耗：仅70W

选型意义： T4是边缘推理和云上推理的标杆产品。其极佳的能效比非常适合高密度、低延迟的推理服务器。

8. Ampere架构 (2020-2022) ：通用性与AI性能的完美结合

定位与特性：

第三代Tensor Core：支持TF32、FP64 Tensor Core，以及稀疏化加速，AI性能暴增。
结构性稀疏：利用2:4的稀疏模式，理论上使稀疏模型的算力翻倍。
NVLink 3.0：带宽再次大幅提升。
多实例GPU（MIG）：可将一块物理GPU分割为多个独立、安全的实例，提升资源利用率。
A100 40GB/80GB：采用HBM2e。

代表产品： Tesla A100 40GB/80GB PCIe & SXM4
关键规格（A100 80GB SXM）：

CUDA Core： 6912个
张量核心： 432个
FP32算力： 19.5 TFLOPs
TF32算力（Tensor Core，稀疏）： 312 TFLOPs
FP16/BF16算力（Tensor Core，稀疏）： 624 TFLOPs
INT8算力（Tensor Core，稀疏）： 1248 TOPS
内存： 80GB HBM2e
内存带宽： 2 TB/s
互联： NVLink 3.0 （600 GB/s）， NVSwitch

选型意义： A100是当前AI数据中心（训练和大型模型推理）的绝对主力。其强大的算力、巨大的内存和带宽，以及MIG特性，使其成为构建大规模AI集群的首选。80GB版本尤其适合无法完全切分的大模型。

五、AI计算的下一代：Transformer引擎与芯片互联

9. Hopper架构 (2022-至今) ：面向巨型AI模型的架构

定位与特性：

Transformer引擎：革命性技术，动态管理FP8、FP16精度，针对Transformer模型（如GPT、BERT）进行硬件级优化，提供数量级性能提升。
第二代MIG：支持更细粒度和安全的隔离。
NVLink 4.0：高达900 GB/s的GPU间互联带宽。
机密计算：支持硬件级内存加密，满足更高安全需求。
HBM3：更高带宽和容量。

代表产品： H100 80GB SXM5 / PCIe 5.0
关键规格（H100 80GB SXM5）：

CUDA Core： ~14592个（估算，基于GH100大核）
张量核心：第四代，专为FP8优化
FP32算力： ~67 TFLOPs （估算）
FP8算力（Transformer Engine）： ~3.9 PetaFLOPs （约4000 TFLOPs）
FP16算力（Transformer Engine）： ~1.9 PetaFLOPs
内存： 80GB HBM3
内存带宽： 3.35 TB/s
互联： NVLink 4.0 （900 GB/s）， PCIe 5.0

选型意义： H100是专为万亿参数级别大模型训练和推理设计的终极武器。对于从事前沿AI研究与部署的机构，H100是构建下一代AI超算的唯一选择。其FP8性能和Transformer引擎是应对未来AI算力需求的关键。

六、AI服务器GPU选型决策指南

考量维度	关键问题	推荐架构/产品
1. 工作负载类型	主要是AI训练	大规模/前沿模型： Hopper (H100) 主流/通用模型： Ampere (A100) 预算有限/遗留系统： Volta (V100)
	主要是AI推理	高吞吐、云原生： Turing (T4) 大模型/低延迟： Ampere (A100) 极致性能（大模型）： Hopper (H100)
	主要是HPC	高FP64需求： Ampere (A100，其FP64性能强) 通用计算：根据预算和功耗选择Ampere或Pascal之后架构
2. 模型规模与精度	模型参数量	<10B参数： A100 / V100 10B - 100B+参数： A100 80GB >100B参数/Transformer类：H100（首选）
2. 模型规模与精度	常用精度？	FP16/BF16训练： V100, A100, H100 FP8训练/推理：H100（唯一官方支持） INT8/INT4推理： T4, A100, H100
3. 系统架构与扩展性	需要多卡协作	必须支持NVLink/NVSwitch： V100, A100, H100 （SXM形态最佳）
	需要资源隔离	需要MIG： A100, H100
	服务器形态	主流机架服务器： PCIe卡（A100 PCIe, T4） AI超算/一体机： SXM模组（A100 SXM, H100 SXM）
4. 总拥有成本	预算限制	高性能： A100 （性价比之选）低成本推理： T4 二手市场： V100 （需注意功耗和保修）无预算上限/追求极致： H100
4. 总拥有成本	功耗与散热	严格限制： T4 (70W) 标准机架： A100 PCIe (250W-300W) 专用散热： A100/H100 SXM (400W-700W)

总结与趋势展望

英伟达GPU架构的演进清晰地指向了专业化、规模化与智能化。从通用的CUDA Core到专用的Tensor Core，再到为特定模型优化的Transformer Engine，计算效率呈指数级提升。同时，内存带宽和互联技术成为释放芯片算力的关键瓶颈。

对于AI服务器设计人员，选型不应仅看峰值算力，而应进行端到端的考量：

当前任务：你的工作负载是训练还是推理？模型多大？精度要求如何？
系统瓶颈：你的系统是计算瓶颈、内存瓶颈还是互联瓶颈？
未来演进：你的业务是否需要为下一代Transformer大模型做准备？

基于此，Ampere A100 目前仍是平衡性能、功能与成本的“全能冠军”，而 Hopper H100 则是面向未来、决胜大模型时代的“战略武器”。在做出最终决策前，强烈建议使用实际工作负载在目标平台上进行基准测试，以获得最直接的性能数据。