OpenAI dẫn đầu AMD, NVIDIA, Intel, Microsoft, Broadcom các ông lớn hiếm hoi hợp lực giải quyết lớp mạng AI

robot
Đang tạo bản tóm tắt

Gold Finance đưa tin, ngày 7 tháng 5, theo Kua Technology, OpenAI hôm nay chính thức phát hành giao thức MRC (Kết nối Đáng tin cậy Đa Đường) thông qua Dự án Tính toán Mở (OCP), nhằm giải quyết nút thắt về truyền thông mạng GPU trong huấn luyện AI quy mô lớn. Giao thức này do OpenAI phối hợp phát triển cùng AMD, NVIDIA, Intel, Microsoft và Broadcom trong vòng hai năm, hiện đã được triển khai thực tế trong các cụm siêu máy tính trang bị NVIDIA GB200.
Vấn đề cốt lõi mà MRC muốn giải quyết là: khi huấn luyện các mô hình AI quy mô lớn, độ trễ truyền dữ liệu một lần đủ để gây gián đoạn toàn bộ quá trình huấn luyện, khiến GPU đồng loạt rỗi chờ đợi, và quy mô cụm càng lớn, các vấn đề về độ trễ do tắc nghẽn mạng, lỗi liên kết và thiết bị càng thường xuyên xảy ra. Giải pháp của MRC là phân tách một giao diện mạng 800Gb/s thành nhiều liên kết nhỏ hơn, ví dụ như kết nối một giao diện với 8 switch khác nhau, xây dựng 8 mạng song song độc lập 100Gb/s, thay vì dựa vào một mạng 800Gb/s duy nhất.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim