A arquitetura de agendamento de GPU acelerada por hardware de Vera Rubin impulsiona a revolução de inferência da NVIDIA

2026-01-28 19:04:23

Na CES 2026, o CEO da NVIDIA Jensen Huang revelou uma abordagem fundamentalmente diferente para a infraestrutura de IA—uma que prioriza o agendamento de GPU acelerado por hardware como mecanismo central para alcançar uma eficiência de inferência sem precedentes. Em vez de otimizar componentes individuais, Vera Rubin representa uma reformulação completa de como o compute, memória, rede e armazenamento são orquestrados ao nível do sistema. Essa mudança de desempenho de ponto único para aceleração de hardware coordenada marca um ponto de inflexão crítico no design de infraestrutura de IA.

A indústria de computação passa por transformações completas a cada 10 a 15 anos. Mas desta vez, duas revoluções simultâneas de plataforma estão ocorrendo: a mudança de CPUs para GPUs, e a transição de uma programação focada em software para um co-design de hardware-software. À medida que os tamanhos dos modelos crescem dez vezes ao ano, o uso de tokens expande cinco vezes ao ano, e os custos por token caem dez vezes ao ano, a demanda por distribuição inteligente de cargas de trabalho tornou-se fundamental. O agendamento de GPU acelerado por hardware não é apenas uma otimização—é uma necessidade arquitetônica.

De Otimização de Chip Único a Aceleração de Hardware ao Nível do Sistema

O supercomputador de IA Vera Rubin introduz seis chips NVIDIA co-projetados que funcionam como um ecossistema de agendamento integrado. Em vez de tratar cada componente de forma independente, Vera Rubin implementa agendamento acelerado por hardware em toda a pilha: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU e Spectrum-X 102.4T CPO.

A Vera CPU—construída com 88 núcleos personalizados NVIDIA Olympus—gerencia a movimentação de dados e processamento de agentes com suporte NVLink-C2C de 1.8TB/s para memória unificada CPU-GPU. Essa abordagem de co-design significa que as decisões de agendamento de GPU podem agora ser tomadas com pleno conhecimento da localidade de dados e custos de movimentação. A Rubin GPU apresenta o motor Transformer com desempenho de inferência NVFP4 atingindo 50 PFLOPS—um aumento de 5x em relação ao Blackwell—enquanto o NVLink 6 Switch alcança 3.6TB/s de largura de banda de interconexão total através de agendamento acelerado por hardware que roteia o tráfego de forma inteligente com base em padrões computacionais.

O sistema Vera Rubin NVL72 integra todos esses componentes em um único rack com 2 trilhões de transistores, entregando 3.6 EFLOPS de desempenho de inferência. O que torna isso possível não é apenas a capacidade bruta dos componentes, mas sim a camada de agendamento acelerado por hardware que coordena o compute, a interconexão e os padrões de acesso à memória através de 54TB de memória LPDDR5X e 20.7TB de memória HBM4. O sistema atinge uma largura de banda total de escalabilidade vertical de 260TB/s—superando a largura de banda total da internet do planeta—por meio de uma aceleração inteligente de hardware nas decisões de agendamento.

O design modular, sem cabos, permite uma montagem 18x mais rápida do que as gerações anteriores, enquanto o compartimento do NVLink Switch implementa manutenção sem tempo de inatividade através de tolerância a falhas acelerada por hardware. O motor RAS (Confiabilidade, Disponibilidade e Manutenção) de segunda geração possibilita verificações de status operacional sem interromper cargas de trabalho—um benefício direto da aceleração por hardware na pipeline de agendamento.

Seis Chips Co-Projetados: Agendamento Acelerado por Hardware em CPU, GPU, Rede e Armazenamento

A estratégia da NVIDIA abandona a abordagem tradicional de otimizar componentes isolados. Em vez disso, cada chip é projetado com agendamento de GPU e coordenação de cargas de trabalho em mente. O DPU BlueField-4, equipado com um CPU Grace de 64 núcleos e o SuperNIC ConnectX-9, descarrega cálculos de rede e armazenamento enquanto oferece 6x o desempenho de computação do seu antecessor—não por velocidades de clock mais altas, mas por aceleração de hardware nas decisões de agendamento para transações de rede e armazenamento.

O SuperNIC ConnectX-9 fornece 1.6Tb/s de largura de banda por GPU com um caminho de dados totalmente definido por software, programável e acelerado. Essa programabilidade é essencial para o agendamento dinâmico de GPU: à medida que as cargas de trabalho mudam, a rede pode reconfigurar-se em tempo real sem intervenção da CPU. O sistema de comutação óptica Spectrum-X Ethernet (CPO), que emprega tecnologia SerDes de 200Gbps com 102.4Tb/s por ASIC, alcança 5x maior eficiência energética e 10x maior confiabilidade através de agendamento e roteamento de pacotes acelerados por hardware.

O que emerge desses seis chips coordenados não é apenas desempenho—é previsibilidade. O agendamento de GPU acelerado por hardware elimina a variabilidade que atormentou gerações anteriores, garantindo que a latência de inferência permaneça consistente mesmo sob carga.

Armazenamento de Contexto de Inferência: Repensando o Agendamento de Memória Acelerado por Hardware

À medida que a IA evolui de chatbots para sistemas Agentic, as janelas de contexto expandiram-se para milhões de tokens. O gargalo mudou do poder de computação bruto para armazenamento e recuperação de contexto. A nova Plataforma de Armazenamento de Memória de Contexto de Inferência aborda isso por meio de uma abordagem inovadora de agendamento acelerado por hardware da hierarquia de memória.

Esse nível de armazenamento é posicionado entre o GPU e o armazenamento tradicional, acelerado pelo BlueField-4 e Spectrum-X Ethernet através de agendamento colaborativo de contexto. Em vez de tratar memória e armazenamento como domínios separados, a plataforma usa aceleração de hardware para mover inteligentemente os dados de contexto com base em padrões de acesso e requisitos de latência. O resultado: melhoria de 5x no desempenho de inferência e eficiência energética 5x maior para aplicações como diálogos multi-turno, geração aumentada por recuperação (RAG) e raciocínio agentic de múltiplas etapas.

A principal ideia: recalcular caches de chaves e valores a cada passo desperdiça ciclos de GPU e introduz latência. Mas enquanto a memória de GPU é rápida e escassa, e o armazenamento tradicional é lento demais para latências interativas, uma camada de armazenamento acelerada por hardware otimizada especificamente para inferência pode preencher essa lacuna. A NVIDIA está colaborando com provedores de armazenamento para integrar essa plataforma nas implantações Vera Rubin, permitindo que os clientes escalem pools de armazenamento de forma mais eficiente, evitando cálculos redundantes de caches de chaves e valores.

Em comparação com Blackwell, a plataforma Rubin reduz o custo por token para modelos grandes de mistura de especialistas (MoE) para 1/10—uma melhoria de dez vezes impulsionada principalmente pela aceleração de hardware em domínios de computação, memória e armazenamento. Ao treinar o mesmo modelo MoE de tamanho similar, Rubin requer apenas 1/4 das GPUs, demonstrando os retornos compostos do hardware em nível de sistema.

DGX SuperPOD: Escalando o Agendamento Acelerado por Hardware em Múltiplos Racks

No nível do pod, o DGX SuperPOD emprega oito sistemas Vera Rubin NVL72, usando NVLink 6 para extensão de rede vertical e Spectrum-X Ethernet para escalabilidade horizontal. Todo o sistema é gerenciado pelo software NVIDIA Mission Control, que implementa agendamento global de GPU acelerado por hardware em todo o pod. Isso representa uma mudança fundamental: as decisões de agendamento não são mais locais a racks individuais, mas coordenadas em toda a infraestrutura do data center.

O DGX SuperPOD serve como um modelo turnkey para implantações de fábricas de IA em grande escala. Ao tratar o pod como uma única entidade de compute unificada, a aceleração de hardware ao nível do sistema da NVIDIA permite que os clientes concluam tarefas de treinamento e inferência com menos GPUs totais do que anteriormente. Mais de 80 parceiros MGX estão prontos para suportar implantações Vera Rubin NVL72 em ambientes de nuvem hyperscale, com a Microsoft e outros provedores líderes já em fases de implantação.

Modelos Open-Source e Co-Otimização de Hardware-Software

O ecossistema open-source em expansão da NVIDIA—com 650 modelos e 250 conjuntos de dados lançados em 2025—reflete uma estratégia complementar. Enquanto a empresa abre agressivamente o software, ela torna seu hardware, interconexões e agendamento ao nível do sistema cada vez mais insubstituíveis.

A nova estrutura “Blueprints” permite que desenvolvedores construam sistemas agentic híbridos multi-modelo e multi-nuvem. Esses blueprints determinam automaticamente se as tarefas devem ser executadas em modelos privados locais ou em modelos de fronteira na nuvem, com base na intenção do usuário—outra forma de agendamento inteligente de hardware-software. O sistema integra perfeitamente texto, voz, imagens e sinais de sensores robóticos por fusão multimodal, com decisões de agendamento feitas ao nível de hardware para minimizar latência e consumo de energia.

As adições à família de modelos open-source Nemotron incluem modelos RAG agentic, de segurança e de fala, além de novas suítes de modelos para robótica e sistemas autônomos. Essa abrangência garante que desenvolvedores de diversos setores possam criar aplicações otimizadas para as capacidades de agendamento acelerado por hardware do Vera Rubin.

IA Física: Aceleração de Hardware Encontra Inteligência Incorporada

A NVIDIA declara que “o momento ChatGPT para IA física chegou.” IA física requer três substratos computacionais: computadores de treinamento (sistemas DGX) para construir modelos, computadores de inferência (embutidos em veículos e robôs) para executar decisões em tempo real, e computadores de simulação (Omniverse) para gerar dados sintéticos de treinamento. O Modelo de Fundação Cosmos World alinha linguagem, imagens, dados 3D e leis físicas—criando um pipeline de treinamento unificado onde o agendamento acelerado por hardware otimiza o fluxo de dados em todos os três ambientes.

O conjunto de modelos open-source Alpha-Mayo permite que veículos autônomos avancem além de respostas reativas para decisões baseadas em raciocínio. Com 10 bilhões de parâmetros, Alpha-Mayo é leve o suficiente para rodar em processadores de borda de veículos, mas sofisticado o bastante para lidar com casos extremos como semáforos falhados ou obstáculos inesperados na estrada. O modelo recebe entradas multimodais—texto, dados de câmeras de visão periférica, histórico do veículo e sinais de navegação—e fornece trajetórias de direção e explicações de raciocínio.

A Mercedes-Benz integrou o Alpha-Mayo no novo CLA, que recentemente atingiu a classificação máxima de segurança da NCAP. O veículo está agora em produção com capacidades Level 2++, com melhorias incluindo condução em rodovias sem mãos e navegação autônoma de ponta a ponta em ambientes urbanos, com lançamento previsto para o final de 2026. Cada componente do sistema passou por certificação de segurança, com agendamento acelerado por hardware garantindo comportamento determinístico e previsível, fundamental para a segurança de veículos autônomos.

A NVIDIA anunciou parcerias com principais empresas de robótica—Boston Dynamics, Franka Robotics, Surgical, LG Electronics, NEURA, XRLabs e Logic Robotics—todas construindo sistemas com NVIDIA Isaac e GR00T. A Siemens anunciou uma colaboração para integrar NVIDIA CUDA-X, modelos de IA e Omniverse em suas plataformas EDA, CAE e gêmeos digitais, estendendo o agendamento de IA acelerado por hardware do data center para o continuum de design e manufatura.

O Alpha-Sim, uma estrutura open-source de avaliação de modelos de inferência, permite que desenvolvedores ajustem o Alpha-Mayo com dados proprietários ou gerem dados sintéticos de treinamento usando Cosmos. Pesquisadores podem testar e validar aplicações de condução autônoma com combinações de dados reais e sintéticos—assegurando que a inferência acelerada por hardware em veículos reflita condições de estrada diversas e casos extremos.

Vantagem ao Nível do Sistema: Por que o Agendamento Acelerado por Hardware Importa

À medida que a infraestrutura de IA transita de centrada em treinamento para centrada em inferência, a economia da IA mudou fundamentalmente. A competição por plataformas evoluiu de comparação de métricas isoladas para avaliação de sistemas inteiros. A aposta da NVIDIA é clara: a empresa que melhor orquestrar compute, memória, rede e armazenamento por meio de agendamento inteligente acelerado por hardware dominará a economia de inferência.

Vera Rubin exemplifica esse princípio. Ao co-projetar seis chips com uma arquitetura de agendamento unificada, a NVIDIA consegue melhorias simultâneas de desempenho e custo. A taxa de throughput de treinamento aumenta enquanto os custos por token de inferência despencam para 1/10 dos níveis anteriores. O sistema opera com menor consumo de energia graças ao agendamento otimizado por hardware, mantém maior tempo de atividade por meio de tolerância a falhas acelerada e escala de forma mais eficiente porque as decisões de agendamento consideram toda a topologia.

A estratégia da NVIDIA combina contribuições open-source agressivas—expandindo o ecossistema de desenvolvedores e reduzindo barreiras à adoção—com hardware cada vez mais integrado e insubstituível. À medida que a demanda por tokens e cargas de trabalho de inferência cresce, sua arquitetura de agendamento acelerado por hardware torna-se a plataforma padrão sobre a qual toda a indústria constrói. Essa estratégia de ciclo fechado—expansão de demanda, crescimento no consumo de tokens, escalabilidade de inferência e provisão de infraestrutura econômica—constrói uma barreira defensiva cada vez maior.

A transição para IA física amplifica essa vantagem. Veículos autônomos, robôs e sistemas industriais exigem não apenas poder computacional, mas decisões determinísticas, de baixa latência. O agendamento de GPU acelerado por hardware oferece exatamente isso: inferência previsível, eficiente e segura na borda. À medida que tudo que pode se mover se torna autônomo, o valor do sistema de hardware em nível de sistema Vera Rubin se estende dos data centers ao mundo físico em si.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.