纵向扩展、横向扩展迎来新范式：跨数据中心扩展

电子产品世界

03.1311:24

关注

核心要点

AI 数据中心有三种扩展策略：纵向扩展、横向扩展、跨域扩展
纵向扩展局限于单机架内；横向扩展跨机架但在同一数据中心；跨域扩展则是数据中心之间的扩展
三种模式采用不同互联方案，分别以延迟或抖动为核心优化目标

当下的数据中心负载（尤其是 AI 与高性能计算 HPC），已突破单机架乃至单一数据中心的物理、功耗与架构极限。两种传统扩展方式备受关注：纵向扩展通常限于机架内部，横向扩展则延伸至数据中心内的多个机架。当单数据中心资源耗尽时，业界开始流行一个新词 ——跨域扩展，即把资源调度范围拓展到另一个数据中心。

纵向扩展以最小化延迟为目标，横向扩展更关注抖动控制。跨域扩展面临与横向扩展相似的挑战，但因长距离场景下的抖动处理方式存在差异，故而成为独立概念。

这些定义主要适用于 AI 与 HPC 场景，这两类负载需要调集海量计算与内存资源。HPC 长期受此问题困扰，而 AI（训练与推理）则以惊人的发展速度迅速触及同样瓶颈。

博通核心交换部门产品线经理 Robin Grindley 表示：“在技术需求上，HPC 与 AI 纵向扩展几乎完全一致，在一定程度上也与 AI 横向扩展高度吻合。”

有人将纵向扩展视为南北向流量网络，横向扩展为东西向流量网络；跨域扩展可看作更远距离的横向扩展，同样属于东西向流量。楷登电子硅解决方案部门设计 IP 高级产品营销群总监 Arif Khan 指出：“数据中心内的东西向与南北向网络特性截然不同。”

乍看之下，三种扩展模式目标一致 —— 调度外部资源。但为何需要划分三个不同类别？答案在于实现细节。

一、纵向扩展：机架内聚合

纵向扩展旨在将计算资源（以 GPU 为主）聚合为一台巨型处理器，而非一堆小型处理器的集合。新思科技接口 IP 产品管理总监 Priyank Shukla 解释：“机器学习集群的核心思路，是把加速器、GPU 等算力资源整合，输入海量数据，最终输出训练完成的模型。”

纵向扩展有四大核心特征：

互联核心优化指标：延迟
采用内存语义：所有处理器共享同一内存空间
资源分配通常为静态，在启动阶段完成
距离更短，铜介质互联仍为主流

英伟达网络高级副总裁 Gilad Shainer 强调：“延迟是关键，高消息速率同样重要。它本质上执行加载 / 存储、网内计算，以及计算结果的多级归约。相比横向扩展，它需要约 10 倍带宽，用于 GPU 间数据搬运，并要求完全同步，形成统一整体。”

内存语义支持对本地内存的直接访问，实现最低延迟。抖动依然存在，但远低于横向扩展场景。

Shukla 补充：“内存语义意味着一个加速器可访问另一加速器的内存空间，具备内存一致性。为实现这种内存效率，部分集群架构会在功耗与面积上做出妥协。”

最小化跳数

互联架构的跳数会增加延迟。早期方案为单跳，部分方案开始采用多层交换，跳数增加会轻微抬升抖动，但整体仍处于极低水平。

楷登电子 Khan 表示：“UALink 1.0 定义为单跳协议，联盟内部已讨论多层交换拓扑的必要性；若明确机架拓扑与任务划分，可采用静态路由适配。”

资源编排在程序加载阶段完成，静态配置避免了实时申请资源带来的额外延迟。

该场景仍倾向使用铜介质而非光互联：短距离下铜介质功耗更低，光模块需先消耗功耗产生光束，短连接效率不如铜介质。

Shainer 称：“我们尽可能使用铜介质，它成本最优、可靠性高、且基础功耗近乎为零。”

目前纵向扩展至少有两项标准：UALink 与新型以太网变体，物理层一致，差异在协议栈。

二、横向扩展：跨机架调度资源

西门子 EDA 验证 IP 产品总监 Gordon Allan 用类比区分纵向与横向扩展：

“一个人靠大脑思考，需要更强智能时，要么换更聪明的大脑（纵向扩展），要么召集十个人协同思考（横向扩展）。大脑内部的通信是纵向扩展，人与人之间的通信是横向扩展。”

横向扩展从不同机架调取数据，核心特征：

互联核心优化指标：数据包抖动
采用RDMA（远程直接内存访问）语义，而非内存语义
资源动态分配与释放
距离更长，光互联开始普及

它更接近传统网络范式：纵向扩展寻址内存，横向扩展发送数据包。低延迟同样重要，但抖动可控是核心。

数据包丢失会导致重传，迫使大量算力资源等待，因此协议必须无损。

集群间可共享数据（指针、张量），但不共享内存空间。Shukla 指出：“混合专家模型、智能体模型等新架构，需要多集群协同，无法用单跳交换连接全部节点。”

与纵向扩展的静态配置不同，横向扩展资源动态增减，多数场景无需完整内存一致性。

以太网成为主流

尽管英伟达早期以 InfiniBand 支撑横向扩展，现已兼容以太网。Shainer 解释：“大量用户已深度投入以太网生态，我们为 AI 场景定制了专用以太网版本。”

核心目标是管控流量与拥塞，避免瓶颈与热点。

博通 Robin Grindley 表示：“横向扩展通常经过 3–5 跳，排队延迟与拥塞概率更高，核心是拥塞控制与流量管理；而纵向扩展高度编排，加速器直连，无需复杂流量调度。”

英伟达通过遥测探针实时监测链路延迟，比传统交换机拥塞标记响应更快；并让交换机忽略数据包顺序，由网卡直接将数据写入 GPU 指定位置，降低抖动。

光互联可降低延迟，机架间以光纤为主，共封装光学（CPO）部署在交换机而非服务器。

三、特殊场景：部分地区纵向扩展跨机架

上述定义适用于全球多数地区，但在部分国家，纵向扩展边界与横向扩展出现重叠。

受地缘限制导致 GPU 性能不足的地区，企业会将 2–3 个机架纳入纵向集群，以凑足算力。

Lightelligence 工程副总裁 Maurice Steinman 称：“中国 GPU 性能受限，单节点算力仅为高端英伟达 / AMD 节点的一部分，要达到同等集群性能，纵向扩展域必须更大。”

连接相邻机架可维持低延迟，但需双跳交换，牺牲单跳特性，是性能与延迟的权衡。

日本出现类似情况，原因则是机架功耗上限收紧。经济产业省正推进数据中心能效法规，计划 2026 年 3 月底修订、4 月实施，单机架功耗受限，迫使纵向扩展跨机架。

四、跨域扩展：数据中心间扩展

当单一数据中心资源耗尽，就需要跨数据中心协同运行同一 workload。

Shainer 给出通俗类比：

“市区开车车距小，跟车激进；长途高速车距大，反应时间充足，控车方式更平缓。横向扩展像市区驾驶，跨域扩展像长途高速。”

跨域扩展本质更接近横向扩展，但长距离下拥塞控制算法与策略显著不同。

五、各数据中心实践方案不同

不同厂商采用不同组合：

英伟达：NVLink（纵向）+ InfiniBand（横向）
谷歌：ICI（基于 PCIe，纵向）+ 以太网（横向）

随着数据中心演进，三类扩展的边界正在模糊。