新浪科技

纵向扩展、横向扩展迎来新范式:跨数据中心扩展

电子产品世界

关注

核心要点

  • AI 数据中心有三种扩展策略:纵向扩展横向扩展跨域扩展

  • 纵向扩展局限于单机架内;横向扩展跨机架但在同一数据中心;跨域扩展则是数据中心之间的扩展

  • 三种模式采用不同互联方案,分别以延迟抖动为核心优化目标

当下的数据中心负载(尤其是 AI 与高性能计算 HPC),已突破单机架乃至单一数据中心的物理、功耗与架构极限。两种传统扩展方式备受关注:纵向扩展通常限于机架内部,横向扩展则延伸至数据中心内的多个机架。当单数据中心资源耗尽时,业界开始流行一个新词 ——跨域扩展,即把资源调度范围拓展到另一个数据中心。

纵向扩展以最小化延迟为目标,横向扩展更关注抖动控制。跨域扩展面临与横向扩展相似的挑战,但因长距离场景下的抖动处理方式存在差异,故而成为独立概念。

这些定义主要适用于 AI 与 HPC 场景,这两类负载需要调集海量计算与内存资源。HPC 长期受此问题困扰,而 AI(训练与推理)则以惊人的发展速度迅速触及同样瓶颈。

博通核心交换部门产品线经理 Robin Grindley 表示:“在技术需求上,HPC 与 AI 纵向扩展几乎完全一致,在一定程度上也与 AI 横向扩展高度吻合。”

有人将纵向扩展视为南北向流量网络,横向扩展为东西向流量网络;跨域扩展可看作更远距离的横向扩展,同样属于东西向流量。楷登电子硅解决方案部门设计 IP 高级产品营销群总监 Arif Khan 指出:“数据中心内的东西向与南北向网络特性截然不同。”

乍看之下,三种扩展模式目标一致 —— 调度外部资源。但为何需要划分三个不同类别?答案在于实现细节

一、纵向扩展:机架内聚合

纵向扩展旨在将计算资源(以 GPU 为主)聚合为一台巨型处理器,而非一堆小型处理器的集合。新思科技接口 IP 产品管理总监 Priyank Shukla 解释:“机器学习集群的核心思路,是把加速器、GPU 等算力资源整合,输入海量数据,最终输出训练完成的模型。”

纵向扩展有四大核心特征:

  1. 互联核心优化指标:延迟

  2. 采用内存语义:所有处理器共享同一内存空间

  3. 资源分配通常为静态,在启动阶段完成

  4. 距离更短,铜介质互联仍为主流

英伟达网络高级副总裁 Gilad Shainer 强调:“延迟是关键,高消息速率同样重要。它本质上执行加载 / 存储、网内计算,以及计算结果的多级归约。相比横向扩展,它需要约 10 倍带宽,用于 GPU 间数据搬运,并要求完全同步,形成统一整体。”

内存语义支持对本地内存的直接访问,实现最低延迟。抖动依然存在,但远低于横向扩展场景。

Shukla 补充:“内存语义意味着一个加速器可访问另一加速器的内存空间,具备内存一致性。为实现这种内存效率,部分集群架构会在功耗与面积上做出妥协。”

最小化跳数

互联架构的跳数会增加延迟。早期方案为单跳,部分方案开始采用多层交换,跳数增加会轻微抬升抖动,但整体仍处于极低水平。

楷登电子 Khan 表示:“UALink 1.0 定义为单跳协议,联盟内部已讨论多层交换拓扑的必要性;若明确机架拓扑与任务划分,可采用静态路由适配。”

资源编排在程序加载阶段完成,静态配置避免了实时申请资源带来的额外延迟。

该场景仍倾向使用铜介质而非光互联:短距离下铜介质功耗更低,光模块需先消耗功耗产生光束,短连接效率不如铜介质。

Shainer 称:“我们尽可能使用铜介质,它成本最优、可靠性高、且基础功耗近乎为零。”

目前纵向扩展至少有两项标准:UALink 与新型以太网变体,物理层一致,差异在协议栈。

二、横向扩展:跨机架调度资源

西门子 EDA 验证 IP 产品总监 Gordon Allan 用类比区分纵向与横向扩展:

“一个人靠大脑思考,需要更强智能时,要么换更聪明的大脑(纵向扩展),要么召集十个人协同思考(横向扩展)。大脑内部的通信是纵向扩展,人与人之间的通信是横向扩展。”

横向扩展从不同机架调取数据,核心特征:

  1. 互联核心优化指标:数据包抖动

  2. 采用RDMA(远程直接内存访问)语义,而非内存语义

  3. 资源动态分配与释放

  4. 距离更长,光互联开始普及

它更接近传统网络范式:纵向扩展寻址内存,横向扩展发送数据包。低延迟同样重要,但抖动可控是核心。

数据包丢失会导致重传,迫使大量算力资源等待,因此协议必须无损

集群间可共享数据(指针、张量),但不共享内存空间。Shukla 指出:“混合专家模型、智能体模型等新架构,需要多集群协同,无法用单跳交换连接全部节点。”

与纵向扩展的静态配置不同,横向扩展资源动态增减,多数场景无需完整内存一致性。

以太网成为主流

尽管英伟达早期以 InfiniBand 支撑横向扩展,现已兼容以太网。Shainer 解释:“大量用户已深度投入以太网生态,我们为 AI 场景定制了专用以太网版本。”

核心目标是管控流量与拥塞,避免瓶颈与热点。

博通 Robin Grindley 表示:“横向扩展通常经过 3–5 跳,排队延迟与拥塞概率更高,核心是拥塞控制与流量管理;而纵向扩展高度编排,加速器直连,无需复杂流量调度。”

英伟达通过遥测探针实时监测链路延迟,比传统交换机拥塞标记响应更快;并让交换机忽略数据包顺序,由网卡直接将数据写入 GPU 指定位置,降低抖动。

光互联可降低延迟,机架间以光纤为主,共封装光学(CPO)部署在交换机而非服务器。

三、特殊场景:部分地区纵向扩展跨机架

上述定义适用于全球多数地区,但在部分国家,纵向扩展边界与横向扩展出现重叠。

受地缘限制导致 GPU 性能不足的地区,企业会将 2–3 个机架纳入纵向集群,以凑足算力。

Lightelligence 工程副总裁 Maurice Steinman 称:“中国 GPU 性能受限,单节点算力仅为高端英伟达 / AMD 节点的一部分,要达到同等集群性能,纵向扩展域必须更大。”

连接相邻机架可维持低延迟,但需双跳交换,牺牲单跳特性,是性能与延迟的权衡。

日本出现类似情况,原因则是机架功耗上限收紧。经济产业省正推进数据中心能效法规,计划 2026 年 3 月底修订、4 月实施,单机架功耗受限,迫使纵向扩展跨机架。

四、跨域扩展:数据中心间扩展

当单一数据中心资源耗尽,就需要跨数据中心协同运行同一 workload。

Shainer 给出通俗类比:

“市区开车车距小,跟车激进;长途高速车距大,反应时间充足,控车方式更平缓。横向扩展像市区驾驶,跨域扩展像长途高速。”

跨域扩展本质更接近横向扩展,但长距离下拥塞控制算法与策略显著不同。

五、各数据中心实践方案不同

不同厂商采用不同组合:

  • 英伟达:NVLink(纵向)+ InfiniBand(横向)

  • 谷歌:ICI(基于 PCIe,纵向)+      以太网(横向)

随着数据中心演进,三类扩展的边界正在模糊。

加载中...