DeepSeek lanza el modelo Prover-V2, con una cantidad de parámetros de 6710 millones.

robot
Generación de resúmenes en curso

[DeepSeek lanza el modelo Prover-V2 con 671 mil millones de parámetros] DeepSeek lanzó hoy un nuevo modelo llamado DeepSeek-Prover-V2-671B en Hugging Face, una comunidad de IA de código abierto. Se informa que DeepSeek-Prover-V2-671B utiliza un formato de archivo safetensors más eficiente y admite una variedad de precisiones de cálculo, lo cual es conveniente para un entrenamiento e implementación de modelos más rápidos y que ahorran más recursos, con 671 mil millones de parámetros, o una versión mejorada del modelo matemático Prover-V1.5 lanzado el año pasado. En cuanto a la arquitectura del modelo, el modelo utiliza la arquitectura DeepSeek-V3, adopta el modo MoE (Hybrid Expert) y tiene 61 capas Transformer y 7168 capas ocultas dimensionales. Al mismo tiempo, admite contextos ultralargos, con una incrustación de posición máxima de hasta 163.800, lo que le permite procesar pruebas matemáticas complejas, y se adopta la cuantificación FP8, que puede reducir el tamaño del modelo y mejorar la eficiencia de la inferencia a través de la tecnología de cuantificación. ( de oro diez )

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • بالعربية
  • Português (Brasil)
  • 简体中文
  • English
  • Español
  • Français (Afrique)
  • Bahasa Indonesia
  • 日本語
  • Português (Portugal)
  • Русский
  • 繁體中文
  • Українська
  • Tiếng Việt