DeepSeek phát hành mô hình Prover-V2, với số lượng tham số đạt 6710 tỷ

robot
Đang tạo bản tóm tắt

[DeepSeek phát hành mô hình Prover-V2 với 671 tỷ thông số] DeepSeek hôm nay đã phát hành một mô hình mới có tên DeepSeek-Prover-V2-671B trên Hugging Face, một cộng đồng AI mã nguồn mở. Có thông tin cho rằng DeepSeek-Prover-V2-671B sử dụng định dạng tệp safetensors hiệu quả hơn và hỗ trợ nhiều độ chính xác tính toán khác nhau, thuận tiện cho việc đào tạo và triển khai mô hình nhanh hơn và tiết kiệm tài nguyên hơn, với 671 tỷ tham số hoặc phiên bản nâng cấp của mô hình toán học Prover-V1.5 được phát hành vào năm ngoái. Về kiến trúc mô hình, mô hình sử dụng kiến trúc DeepSeek-V3, áp dụng chế độ MoE (Hybrid Expert) và có 61 lớp Transformer và 7168 lớp ẩn chiều. Đồng thời, nó hỗ trợ các ngữ cảnh cực dài, với vị trí nhúng tối đa lên đến 163.800, cho phép nó xử lý các bằng chứng toán học phức tạp và lượng tử hóa FP8 được áp dụng, có thể giảm kích thước mô hình và cải thiện hiệu quả suy luận thông qua công nghệ lượng tử hóa. ( vàng mười )

DEEPSEEK-4,29%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Ghim