Andrej Karpathy mở nguồn dự án autoresearch, tự động chạy hàng trăm lần thử nghiệm huấn luyện LLM

Tin tức Gate News, ngày 9 tháng 3, sáng lập Eureka Labs và đồng sáng lập OpenAI Andrej Karpathy đã công bố dự án mã nguồn mở autoresearch vào ngày hôm qua (8 tháng 3), đóng gói độc lập quy trình tối ưu tự động của AI Agent trong dự án huấn luyện LLM nanochat để các nhà phát triển sử dụng. Dự án này theo mô hình thiết kế “người viết Markdown, AI viết mã”: nhà phát triển viết tệp program.md để xác định hướng nghiên cứu, AI Agent tự động chỉnh sửa mã train.py chứa mô hình GPT đầy đủ, bộ tối ưu Muon + AdamW và vòng lặp huấn luyện (khoảng 630 dòng). Mỗi lần thử nghiệm cố định chạy 5 phút, sử dụng số bit mỗi byte của tập xác thực (val_bpb) làm chỉ số đánh giá duy nhất, các cải tiến vượt qua mức cơ bản sẽ được giữ lại để gửi đi, còn nếu không sẽ bị loại bỏ. Theo nhịp này, mỗi giờ có thể chạy khoảng 12 lần thử nghiệm, một đêm có thể hoàn thành khoảng 100 lần. Ví dụ do Karpathy trình bày cho thấy, trong 83 lần thử nghiệm, có 15 lần mang lại cải tiến hiệu quả. Dự án chỉ cần một GPU NVIDIA (đã thử trên H100), dựa vào PyTorch và một số gói phần mềm nhỏ, mở mã theo giấy phép MIT. Hiện cộng đồng đã xuất hiện các nhánh phù hợp cho macOS và MLX.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận