La biblioteca de operadores GPU de código abierto DeepSeek DeepGEMM ha recibido una actualización importante, añadiendo Mega MoE que fusiona los cinco pasos de cálculo de MoE en un solo kernel

robot
Generación de resúmenes en curso

ME News Noticias, 16 de abril (UTC+8), según la monitorización de Dongcha Beating, DeepSeek lanzó hoy la mayor actualización desde la apertura de DeepGEMM. Esta biblioteca de operadores GPU, lanzada durante la “Semana de código abierto” en febrero del año pasado, originalmente solo realizaba multiplicaciones de matrices en FP8, ahora se ha expandido para cubrir una biblioteca completa de operadores clave para la inferencia de modelos grandes, soportando operaciones matriciales en múltiples precisiones como FP8, FP4, BF16, así como operadores especializados para MoE y puntuación de atención. La incorporación principal es Mega MoE. La arquitectura MoE (experto híbrido) es la base de modelos como DeepSeek V3, y durante la inferencia requiere ejecutar cinco pasos en secuencia: distribución EP, primera transformación lineal, activación SwiGLU, segunda transformación lineal y fusión EP. La práctica tradicional consiste en llamar a cinco kernels independientes en secuencia, cada uno esperando a que el anterior termine y moviendo datos en la memoria de la GPU. Mega MoE fusiona estos cinco pasos en un solo kernel, permitiendo que la comunicación NVLink y el cálculo con Tensor Core ocurran simultáneamente, eliminando esperas intermedias y transferencias de datos. Actualmente solo soporta combinaciones de precisión FP8×FP4, requiere PyTorch 2.9 o superior, y el equipo indica que todavía están optimizando, con datos de rendimiento que se publicarán posteriormente. Otros añadidos incluyen: multiplicación de matrices en precisión mixta FP8×FP4, soporte para operadores de puntuación de atención en FP4 con mayor tamaño de MTP (Indexer), PDL (inicio de dependencia programada, una optimización de programación GPU para reducir la latencia de inicio de kernels), velocidad de compilación JIT más rápida, y varias optimizaciones para operaciones matriciales MoE. Esta actualización también adapta la disposición de datos MoE de DeepEPv2. La descripción del PR señala específicamente: “Esta publicación está relacionada únicamente con el desarrollo de DeepGEMM y no con el lanzamiento de modelos internos.” (Fuente: BlockBeats)

DEEPSEEK-1,91%
MEGA-0,62%
KERNEL2,68%
ME1,93%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado