Kiến trúc Lập lịch GPU Tăng tốc Phần cứng của Vera Rubin Thúc đẩy Cuộc cách mạng suy luận của NVIDIA

2026-01-28 19:04:23

Tại CES 2026, CEO NVIDIA Jensen Huang đã giới thiệu một phương pháp tiếp cận hạ tầng AI hoàn toàn khác biệt—tập trung vào việc ưu tiên lập lịch GPU tăng tốc phần cứng như cơ chế cốt lõi để đạt được hiệu quả suy luận chưa từng có. Thay vì tối ưu từng thành phần riêng lẻ, Vera Rubin đại diện cho một cách tư duy hoàn toàn mới về cách phối hợp tính toán, bộ nhớ, mạng lưới và lưu trữ ở cấp hệ thống. Sự chuyển đổi này từ hiệu năng điểm đơn sang tăng tốc phần cứng phối hợp đánh dấu một bước ngoặt quan trọng trong thiết kế hạ tầng AI.

Ngành công nghiệp tính toán trải qua những biến đổi toàn diện mỗi 10 đến 15 năm. Nhưng lần này, hai cuộc cách mạng nền tảng đồng thời đang diễn ra: chuyển đổi từ CPU sang GPU, và chuyển từ lập trình tập trung vào phần mềm sang thiết kế phối hợp phần cứng-phần mềm. Khi kích thước mô hình tăng gấp mười lần mỗi năm, việc sử dụng token mở rộng gấp năm lần hàng năm, và chi phí token giảm gấp mười lần mỗi năm, nhu cầu phân phối tải công việc thông minh đã trở nên tối quan trọng. Lập lịch GPU tăng tốc phần cứng không chỉ là tối ưu—đó là một yếu tố kiến trúc bắt buộc.

Từ tối ưu chip đơn sang tăng tốc phần cứng cấp hệ thống

Siêu máy tính AI Vera Rubin giới thiệu sáu chip NVIDIA được thiết kế phối hợp, hoạt động như một hệ sinh thái lập lịch tích hợp. Thay vì xử lý từng thành phần riêng biệt, Vera Rubin thực hiện lập lịch tăng tốc phần cứng trên toàn bộ hệ thống: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, và Spectrum-X 102.4T CPO.

Vera CPU—dựa trên 88 lõi tùy chỉnh của NVIDIA Olympus—xử lý di chuyển dữ liệu và xử lý tác nhân với hỗ trợ NVLink-C2C 1.8TB/s cho bộ nhớ CPU-GPU thống nhất. Phương pháp thiết kế phối hợp này cho phép các quyết định lập lịch GPU giờ đây có thể được đưa ra với đầy đủ kiến thức về địa lý dữ liệu và chi phí di chuyển. Rubin GPU giới thiệu động cơ Transformer với hiệu suất suy luận NVFP4 đạt 50 PFLOPS—tăng 5 lần so với Blackwell—trong khi NVLink 6 Switch đạt 3.6TB/s băng thông liên kết toàn phần thông qua lập lịch phần cứng thông minh định tuyến lưu lượng dựa trên mẫu tính toán.

Hệ thống Vera Rubin NVL72 tích hợp tất cả các thành phần này vào một rack duy nhất với 2 nghìn tỷ transistor, cung cấp hiệu suất suy luận 3.6 EFLOPS. Điều làm cho điều này khả thi không phải là khả năng của các thành phần riêng lẻ, mà là lớp lập lịch tăng tốc phần cứng phối hợp điều phối tính toán, liên kết và mẫu truy cập bộ nhớ trên 54TB bộ nhớ LPDDR5X và 20.7TB bộ nhớ HBM4. Hệ thống đạt băng thông mở rộng dọc tổng cộng 260TB/s—vượt quá tổng băng thông internet toàn cầu—thông qua lập lịch thông minh dựa trên phần cứng.

Thiết kế mô-đun, không cáp này cho phép lắp ráp nhanh hơn gấp 18 lần so với các thế hệ trước, trong khi khay NVLink Switch thực hiện bảo trì không gián đoạn thông qua khả năng chịu lỗi tăng tốc phần cứng. Động cơ RAS (Độ tin cậy, Khả dụng, và Khả năng bảo trì) thế hệ thứ hai cho phép kiểm tra trạng thái hoạt động mà không làm gián đoạn tải công việc—một lợi ích trực tiếp của tăng tốc phần cứng trong pipeline lập lịch.

Sáu chip phối hợp: Lập lịch tăng tốc phần cứng trên CPU, GPU, mạng lưới và lưu trữ

Chiến lược của NVIDIA từ bỏ cách tiếp cận truyền thống tối ưu hóa các thành phần riêng lẻ. Thay vào đó, mỗi chip được thiết kế với ý tưởng lập lịch GPU và phối hợp tải công việc trong tâm trí. DPU BlueField-4, trang bị CPU Grace 64 lõi và SuperNIC ConnectX-9, offload các tính toán mạng và lưu trữ trong khi cung cấp hiệu suất tính toán gấp 6 lần so với phiên bản trước—không phải qua tốc độ xung nhịp cao hơn, mà qua tăng tốc lập lịch quyết định cho các giao dịch mạng và lưu trữ.

SuperNIC ConnectX-9 cung cấp băng thông 1.6Tb/s cho mỗi GPU với đường dẫn dữ liệu có thể lập trình, được tăng tốc và hoàn toàn dựa trên phần mềm. Tính khả lập trình này là thiết yếu cho lập lịch GPU động: khi tải công việc thay đổi, mạng lưới có thể cấu hình lại trong thời gian thực mà không cần can thiệp của CPU. Hệ thống chuyển mạch quang Spectrum-X Ethernet, sử dụng công nghệ SerDes 200Gbps với 102.4Tb/s trên mỗi ASIC, đạt hiệu quả năng lượng tốt hơn gấp 5 lần và độ tin cậy cao hơn gấp 10 lần thông qua lập lịch gói tin và định tuyến tăng tốc phần cứng.

Điều nổi bật từ sáu chip phối hợp này không chỉ là hiệu năng—mà còn là khả năng dự đoán. Lập lịch GPU tăng tốc phần cứng loại bỏ biến động vốn gây ra ở các thế hệ trước, đảm bảo độ trễ suy luận luôn ổn định ngay cả khi tải cao.

Lưu trữ ngữ cảnh suy luận: Nghĩ lại về lập lịch bộ nhớ tăng tốc phần cứng

Khi AI tiến hóa từ chatbot sang hệ thống Agentic, các cửa sổ ngữ cảnh đã mở rộng đến hàng triệu token. Nguyên nhân trở thành nút thắt đã chuyển từ tính toán thô sang lưu trữ và truy xuất ngữ cảnh. Nền tảng Lưu trữ Bộ nhớ Ngữ cảnh Suy luận mới giải quyết vấn đề này bằng cách tiếp cận mới về lập lịch tăng tốc phần cứng của hệ thống bộ nhớ phân cấp.

Tầng lưu trữ này nằm giữa GPU và lưu trữ truyền thống, được tăng tốc bởi BlueField-4 và Spectrum-X Ethernet thông qua lập lịch ngữ cảnh hợp tác. Thay vì xem bộ nhớ và lưu trữ là các miền riêng biệt, nền tảng sử dụng tăng tốc phần cứng để di chuyển dữ liệu ngữ cảnh một cách thông minh dựa trên mẫu truy cập và yêu cầu độ trễ. Kết quả: cải thiện hiệu suất suy luận gấp 5 lần và hiệu quả năng lượng gấp 5 lần cho các ứng dụng như đối thoại nhiều vòng, sinh dữ liệu bổ sung (RAG), và lý luận đa bước của agentic.

Điều cốt lõi: tính toán lại cache key-value ở mỗi bước lãng phí chu kỳ GPU và gây ra độ trễ. Nhưng trong khi bộ nhớ GPU nhanh và khan hiếm, còn lưu trữ truyền thống quá chậm để đáp ứng độ trễ tương tác, thì một tầng lưu trữ tăng tốc phần cứng tối ưu cho suy luận có thể lấp đầy khoảng cách này. NVIDIA hợp tác với các nhà cung cấp lưu trữ để tích hợp nền tảng này vào các triển khai Vera Rubin, giúp khách hàng mở rộng các kho lưu trữ hiệu quả hơn trong khi tránh tính toán cache key-value dư thừa.

So với Blackwell, nền tảng Rubin giảm chi phí token cho các mô hình hỗn hợp chuyên gia lớn (MoE) xuống còn 1/10—một cải tiến mười lần chủ yếu nhờ lập lịch tăng tốc phần cứng trên các miền tính toán, bộ nhớ và lưu trữ. Khi huấn luyện cùng kích thước MoE, Rubin chỉ cần 1/4 số GPU, thể hiện lợi ích cộng hưởng của tăng tốc phần cứng cấp hệ thống.

DGX SuperPOD: Mở rộng lập lịch tăng tốc phần cứng qua nhiều rack

Ở cấp pod, DGX SuperPOD sử dụng tám hệ thống Vera Rubin NVL72, dùng NVLink 6 để mở rộng mạng lưới theo chiều dọc và Spectrum-X Ethernet để mở rộng theo chiều ngang. Toàn bộ hệ thống được quản lý bởi phần mềm NVIDIA Mission Control, thực hiện lập lịch GPU tăng tốc toàn cục trên toàn pod. Đây là một bước chuyển đổi căn bản: các quyết định lập lịch không còn chỉ giới hạn trong từng rack riêng lẻ, mà được phối hợp trên toàn bộ hạ tầng trung tâm dữ liệu.

DGX SuperPOD trở thành một bản thiết kế sẵn sàng cho các triển khai nhà máy AI quy mô lớn. Bằng cách xem pod như một thực thể tính toán thống nhất, tăng tốc phần cứng cấp hệ thống của NVIDIA cho phép khách hàng hoàn thành cả huấn luyện lẫn suy luận với ít GPU hơn so với trước đây. Hơn 80 đối tác MGX đã sẵn sàng hỗ trợ triển khai Vera Rubin NVL72 trong các môi trường đám mây siêu quy mô, với Microsoft và các nhà cung cấp đám mây hàng đầu đã bắt đầu giai đoạn triển khai.

Các mô hình mã nguồn mở và tối ưu hóa phần cứng-phần mềm

Hệ sinh thái mã nguồn mở mở rộng của NVIDIA—với 650 mô hình và 250 bộ dữ liệu được phát hành năm 2025—phản ánh một chiến lược bổ sung. Trong khi công ty tích cực mở phần mềm, thì đồng thời làm cho phần cứng, liên kết và lập lịch cấp hệ thống của mình ngày càng không thể thay thế.

Khung “Blueprints” mới cho phép các nhà phát triển xây dựng hệ thống agentic đa mô hình, lai đám mây. Các blueprints này tự động xác định xem nhiệm vụ nên thực thi trên mô hình cục bộ riêng tư hay mô hình đỉnh đám mây dựa trên ý định của người dùng—một dạng lập lịch phần cứng-phần mềm thông minh khác. Hệ thống tích hợp mượt mà các tín hiệu văn bản, giọng nói, hình ảnh, cảm biến robot qua hợp nhất đa phương thức, với các quyết định lập lịch được thực hiện ở cấp phần cứng để giảm thiểu độ trễ và tiêu thụ năng lượng.

Các bổ sung cho dòng mô hình mã nguồn mở Nemotron bao gồm các mô hình RAG agentic, mô hình an toàn, và mô hình giọng nói, cùng với các bộ mô hình hoàn toàn mới cho robot và hệ thống tự hành. Độ đa dạng này đảm bảo các nhà phát triển trong các ngành công nghiệp có thể xây dựng ứng dụng tối ưu hóa cho khả năng lập lịch tăng tốc phần cứng của Vera Rubin.

AI vật lý: Tăng tốc phần cứng gặp trí tuệ thể chất

NVIDIA tuyên bố rằng “thời điểm ChatGPT cho AI vật lý đã đến.” AI vật lý đòi hỏi ba nền tảng tính toán: máy huấn luyện (hệ thống DGX) để xây dựng mô hình, máy suy luận (nhúng trên xe và robot) để thực thi quyết định trong thời gian thực, và máy mô phỏng (Omniverse) để tạo dữ liệu huấn luyện tổng hợp. Mô hình Thế giới Cosmos phù hợp ngôn ngữ, hình ảnh, dữ liệu 3D và các quy luật vật lý—tạo ra một quy trình huấn luyện thống nhất nơi lập lịch tăng tốc phần cứng tối ưu hóa luồng dữ liệu qua cả ba môi trường.

Mô hình mã nguồn mở Alpha-Mayo cho phép xe tự hành vượt ra khỏi phản ứng phản xạ để hướng tới quyết định dựa trên lý luận. Với 10 tỷ tham số, Alpha-Mayo đủ nhẹ để chạy trên bộ xử lý cạnh xe, nhưng đủ tinh vi để xử lý các trường hợp đặc biệt như đèn giao thông thất bại hoặc nguy hiểm bất ngờ trên đường. Mô hình nhận đầu vào đa phương thức—văn bản, dữ liệu camera toàn cảnh, lịch sử xe, và tín hiệu định hướng—và xuất ra cả quỹ đạo lái và lời giải thích lý luận.

Mercedes-Benz đã tích hợp Alpha-Mayo vào mẫu CLA mới, vừa đạt xếp hạng an toàn cao nhất của NCAP. Xe hiện đang sản xuất với khả năng Level 2++, với các nâng cấp bao gồm lái xe tự do trên cao tốc và điều hướng tự động toàn diện trong đô thị dự kiến ra mắt vào cuối năm 2026. Mọi thành phần hệ thống đều đã qua chứng nhận an toàn, với lập lịch tăng tốc phần cứng đảm bảo hành vi xác định, dự đoán được—rất quan trọng cho an toàn xe tự hành.

NVIDIA công bố các đối tác hàng đầu trong lĩnh vực robot—Boston Dynamics, Franka Robotics, Surgical, LG Electronics, NEURA, XRLabs, và Logic Robotics—tất cả đều xây dựng hệ thống dựa trên NVIDIA Isaac và GR00T. Siemens công bố hợp tác tích hợp NVIDIA CUDA-X, các mô hình AI, và Omniverse vào các nền tảng EDA, CAE, và mô hình kỹ thuật số của mình, mở rộng lập lịch AI tăng tốc phần cứng từ trung tâm dữ liệu vào chuỗi thiết kế và sản xuất.

Alpha-Sim, một khung đánh giá mô hình suy luận mã nguồn mở, cho phép các nhà phát triển tinh chỉnh Alpha-Mayo với dữ liệu riêng hoặc tạo dữ liệu huấn luyện tổng hợp bằng Cosmos. Các nhà nghiên cứu có thể thử nghiệm và xác thực các ứng dụng lái xe tự hành bằng cách kết hợp dữ liệu thực và dữ liệu tổng hợp—đảm bảo rằng suy luận tăng tốc phần cứng trên xe phản ánh đa dạng điều kiện đường và các trường hợp đặc biệt.

Ưu thế cấp hệ thống: Tại sao lập lịch tăng tốc phần cứng lại quan trọng

Khi hạ tầng AI chuyển từ tập trung vào huấn luyện sang tập trung vào suy luận, kinh tế của AI đã thay đổi căn bản. Cạnh tranh nền tảng đã tiến xa hơn so với so sánh các chỉ số đơn lẻ, mà là đánh giá toàn bộ hệ thống. Đặt cược của NVIDIA rõ ràng: công ty nào tối ưu hóa tốt nhất việc phối hợp tính toán, bộ nhớ, mạng lưới và lưu trữ qua lập lịch tăng tốc phần cứng thông minh sẽ thống trị kinh tế suy luận.

Vera Rubin minh chứng cho nguyên lý này. Bằng cách thiết kế đồng bộ sáu chip với kiến trúc lập lịch thống nhất, NVIDIA đạt được cả hiệu năng lẫn giảm chi phí đồng thời. Tốc độ xử lý huấn luyện tăng lên trong khi chi phí token suy luận giảm còn 1/10 mức trước đó. Hệ thống hoạt động tiêu thụ năng lượng thấp hơn nhờ lập lịch tối ưu phần cứng, duy trì thời gian hoạt động cao hơn nhờ khả năng chịu lỗi tăng tốc, và mở rộng hiệu quả hơn vì các quyết định lập lịch tính đến toàn bộ cấu trúc mạng lưới.

Chiến lược của NVIDIA kết hợp các đóng góp mở mã nguồn mạnh mẽ—mở rộng hệ sinh thái nhà phát triển và giảm rào cản tiếp cận—với phần cứng ngày càng tích hợp và không thể thay thế. Khi công ty mở rộng nhu cầu token và tải công việc suy luận, kiến trúc lập lịch tăng tốc phần cứng của nó trở thành nền tảng tiêu chuẩn mà toàn ngành xây dựng. Chiến lược vòng kín này—mở rộng nhu cầu, tăng tiêu thụ token, mở rộng suy luận, và cung cấp hạ tầng chi phí hợp lý—xây dựng một rào cản phòng thủ ngày càng vững chắc.

Chuyển sang AI vật lý càng làm tăng lợi thế này. Các phương tiện tự hành, robot và hệ thống công nghiệp đòi hỏi không chỉ sức mạnh tính toán mà còn quyết định xác định, độ trễ thấp. Lập lịch GPU tăng tốc phần cứng mang lại chính xác điều này: suy luận dự đoán, hiệu quả, an toàn và dự đoán được tại biên. Khi mọi thứ có thể di chuyển trở nên tự chủ, giá trị của hệ thống phần cứng cấp hệ thống Vera Rubin mở rộng từ trung tâm dữ liệu ra thế giới vật lý chính nó.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.