Vera Rubin的硬件加速GPU调度架构推动NVIDIA的推理革命

2026-01-28 19:04:23

在2026年CES上，NVIDIA首席执行官黄仁勋展示了一种根本不同的AI基础设施方法——以硬件加速的GPU调度作为实现前所未有推理效率的核心机制。Vera Rubin并非仅优化单个组件，而是对计算、存储、网络和存储的系统级调度方式进行了全面重构。这一从单点性能向协调硬件加速的转变，标志着AI基础设施设计的关键拐点。

计算行业每10到15年就会经历一次彻底变革。但这一次，两个同时发生的平台革命正在进行：从CPU向GPU的转变，以及从软件为中心的编程向硬件-软件协同设计的转变。随着模型规模每年增长十倍，令牌使用每年扩大五倍，令牌成本每年下降十倍，对智能工作负载分配的需求变得尤为紧迫。硬件加速的GPU调度不仅仅是优化——它是架构上的必需。

从单芯片优化到系统级硬件加速

Vera Rubin AI超级计算机引入了六个协同设计的NVIDIA芯片，形成一个集成的调度生态系统。它们不再作为独立的组件，而是在整个堆栈中实现硬件加速调度：Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4 DPU和Spectrum-X 102.4T CPO。

Vera CPU基于88个定制的NVIDIA Olympus核心，支持1.8TB/s NVLink-C2C，处理数据迁移和代理处理，实现统一的CPU-GPU内存。这种协同设计意味着GPU调度决策可以在充分了解数据局部性和迁移成本的基础上做出。Rubin GPU引入Transformer引擎，NVFP4推理性能达到50 PFLOPS，比Blackwell提升5倍，而NVLink 6交换机通过硬件加速调度，智能路由流量，实现3.6TB/s的全互联带宽。

Vera Rubin NVL72系统将所有这些组件集成到一个机架中，拥有2万亿晶体管，提供3.6 EFLOPS的推理性能。实现这一切的关键不是单纯的硬件能力，而是协调计算、互连和内存访问模式的硬件加速调度层，支撑54TB LPDDR5X和20.7TB HBM4内存。系统通过智能硬件加速调度，达到260TB/s的总垂直扩展带宽，超越全球互联网总带宽。

模块化、无缆设计使组装速度比前几代快18倍，而NVLink交换机托盘通过硬件加速容错实现零停机维护。第二代RAS（可靠性、可用性和可维护性）引擎支持在不中断工作负载的情况下进行状态检测，充分体现调度管道中硬件加速的优势。

六个协同芯片：跨CPU、GPU、网络和存储的硬件加速调度

NVIDIA的策略摒弃传统的孤立组件优化方式，而是每个芯片都以GPU调度和工作负载协调为设计核心。配备64核Grace CPU和ConnectX-9 SuperNIC的BlueField-4 DPU，卸载网络和存储计算，性能比前代提升6倍——不是通过提高时钟频率，而是通过硬件加速调度网络和存储事务。

ConnectX-9 SuperNIC为每个GPU提供1.6Tb/s带宽，具备完全软件定义、可编程和加速的数据路径。这种可编程性对于动态GPU调度至关重要：随着工作负载变化，网络结构可以实时重新配置，无需CPU干预。Spectrum-X以200Gbps SerDes技术和每ASIC 102.4Tb/s的带宽，采用硬件加速包调度和路由，实现能效提升5倍、可靠性提高10倍。

这六个协调芯片带来的不仅是性能，更是可预测性。硬件加速GPU调度消除了以往的波动，确保推理延迟在高负载下依然稳定。

推理上下文存储：重新思考硬件加速的内存调度

随着AI从聊天机器人发展到Agentic系统，上下文窗口已扩展到数百万个令牌。瓶颈已从纯计算转向上下文存储与检索。新推出的推理上下文存储平台通过创新的硬件加速存储层调度，解决了这一问题。

该存储层位于GPU与传统存储之间，由BlueField-4和Spectrum-X Ethernet协同加速，通过合作的上下文调度实现。它不再将内存和存储视为两个独立领域，而是利用硬件加速，根据访问模式和延迟需求智能移动上下文数据。结果是：多轮对话、检索增强生成（RAG）和多步骤Agentic推理等应用的推理性能提升5倍，能效提升5倍。

关键在于：每一步重新计算键值缓存会浪费GPU周期并引入延迟。而GPU内存虽快但稀缺，传统存储又太慢难以满足交互延迟需求。专为推理优化的硬件加速存储层可以弥合这一差距。NVIDIA正与存储供应商合作，将此平台集成到Vera Rubin中，帮助客户更高效地扩展存储池，避免冗余的键值缓存计算。

与Blackwell相比，Rubin平台将大规模专家混合（MoE）模型的令牌成本降低到1/10——主要得益于跨计算、存储和内存域的硬件加速调度。当训练同样规模的MoE模型时，Rubin只需四分之一的GPU，展现了系统级硬件加速的复合效益。

DGX SuperPOD：跨多个机架扩展硬件加速调度

在机架层面，DGX SuperPOD采用八个Vera Rubin NVL72系统，利用NVLink 6实现垂直网络扩展，Spectrum-X Ethernet实现横向扩展。整个系统由NVIDIA Mission Control软件管理，执行全局硬件加速GPU调度。这一变革意味着调度决策不再局限于单个机架，而是跨整个数据中心基础设施协同。

DGX SuperPOD成为大规模AI工厂部署的标杆蓝图。通过将机架作为一个统一的计算实体，NVIDIA的系统级硬件加速使客户在训练和推理任务中所需的GPU总数比以往更少。超过80个MGX合作伙伴已准备好支持Vera Rubin NVL72在超大规模云环境中的部署，微软等领先云厂商已进入部署阶段。

开源模型与硬件-软件协同优化

NVIDIA不断扩展的开源生态系统——2025年发布了650个模型和250个数据集——体现了互补战略。公司在积极开放软件的同时，也使其硬件、互连和系统级调度变得日益不可替代。

“Blueprints”新框架使开发者能够构建多模型混合云Agentic系统。这些蓝图能自动判断任务应在本地私有模型还是云端前沿模型上执行，体现了智能硬件-软件调度的另一种形式。系统通过多模态融合（文本、语音、图像、机器人传感器信号）实现无缝集成，调度决策在硬件层面做出，以最小化延迟和能耗。

Nemotron开源模型家族新增Agentic RAG模型、安全模型和语音模型，以及面向机器人和自主系统的全新模型套件。这一广度确保各行业开发者都能构建优化Vera Rubin硬件加速调度能力的应用。

物理AI：硬件加速与具身智能的结合

NVIDIA宣称“物理AI的ChatGPT时刻已经到来”。物理AI需要三类计算平台：用于构建模型的训练计算（DGX系统）、用于实时执行决策的推理计算（嵌入车辆和机器人中）、以及用于生成合成训练数据的仿真计算（Omniverse）。Cosmos World基础模型整合了语言、图像、3D数据和物理定律，创建了一个统一的训练流程，硬件加速调度优化了三者之间的数据流。

Alpha-Mayo开源模型套件使自动驾驶车辆从被动反应迈向推理决策。拥有10亿参数，Alpha-Mayo轻量且能在车辆边缘处理器上运行，能应对交通灯失效、突发道路障碍等边缘案例。模型接受多模态输入——文本、全景摄像头数据、车辆历史和导航信号，输出驾驶轨迹和推理说明。

梅赛德斯-奔驰已将Alpha-Mayo集成到新款CLA中，获得NCAP最高安全评级。该车已实现Level 2++，包括免提高速公路驾驶和城市环境端到端自主导航，预计2026年晚些时候推出。所有系统组件都经过安全认证，硬件加速调度确保确定性、可预测性行为，保障自动驾驶安全。

NVIDIA宣布与波士顿动力、Franka Robotics、Surgical、LG Electronics、NEURA、XRLabs和Logic Robotics等领先机器人公司合作，基于NVIDIA Isaac和GR00T构建系统。西门子也宣布合作，将NVIDIA CUDA-X、AI模型和Omniverse集成到其EDA、CAE和数字孪生平台中，将硬件加速AI调度从数据中心延伸到设计与制造的连续环节。

开源推理模型评估框架Alpha-Sim允许开发者用专有数据微调Alpha-Mayo，或利用Cosmos生成合成训练数据。研究人员可以用真实与合成数据结合测试验证自动驾驶应用，确保车辆上的硬件加速推理反映多样的道路状况和边缘案例。

系统级优势：为何硬件加速调度至关重要

随着AI基础设施从以训练为中心转向以推理为中心，AI的经济学已发生根本变化。平台竞争已从单一指标比拼转向整体系统评估。NVIDIA的战略很明确：通过智能硬件加速调度，最优调度计算、存储、网络和存储的公司将主导推理经济。

Vera Rubin正是这一原则的典范。通过协同设计六个芯片，采用统一调度架构，NVIDIA实现了性能和成本的双重提升。训练吞吐量提高，推理令牌成本降至之前的1/10。系统在功耗方面更低，通过硬件优化调度保持更高的正常运行时间，并因调度决策考虑了完整拓扑结构而扩展更高效。

NVIDIA的策略结合了积极的开源贡献——扩大开发者生态、降低采用门槛——以及日益一体化、不可替代的硬件。随着对令牌和推理工作负载的需求增长，其硬件加速调度架构已成为行业的标准平台。这一闭环策略——需求扩展、令牌消耗增长、推理扩展和成本效益基础设施——构筑了日益坚固的护城河。

向物理AI的转变进一步放大了这一优势。自动驾驶、机器人和工业系统不仅需要强大的计算能力，更需要确定性、低延迟的决策能力。硬件加速GPU调度正是实现这一目标的关键：提供可预测、高效、安全的边缘推理。随着万物自主化，Vera Rubin的系统级硬件加速的价值将从数据中心延伸到物理世界本身。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate13周年全球庆典
1664.19万热度
#
Gate广场AI测评官
39.64万热度
#
SEC与CFTC新监管指引
4.49万热度
#
美联储利率决议
356.9万热度
#
比特币支撑阻力位分析
43.38万热度

热门 Gate Fun
查看更多

1
-
K
市值:$0.1持有人数:1
0.00%
2
BDS
北帝山
市值:$0.1持有人数:1
0.00%
3
GIAOT
Giaot
市值:$2468.96持有人数:1
0.00%
4
BTCS6
BTCS6
市值:$2451.72持有人数:1
0.00%
5
山寨产品
山寨产品
市值:$0.1持有人数:1
0.00%

Vera Rubin的硬件加速GPU调度架构推动NVIDIA的推理革命

从单芯片优化到系统级硬件加速

六个协同芯片：跨CPU、GPU、网络和存储的硬件加速调度

推理上下文存储：重新思考硬件加速的内存调度

DGX SuperPOD：跨多个机架扩展硬件加速调度

开源模型与硬件-软件协同优化

物理AI：硬件加速与具身智能的结合

系统级优势：为何硬件加速调度至关重要

热门话题

Gate13周年全球庆典

Gate广场AI测评官

SEC与CFTC新监管指引

美联储利率决议

比特币支撑阻力位分析

热门 Gate Fun

-

K

BDS

北帝山

GIAOT

Giaot

BTCS6

BTCS6

山寨产品

山寨产品

置顶