El 16 de abril, DeepGEMM lanzó la mayor actualización de la historia, expandiéndose para cubrir una biblioteca completa de operadores para inferencia de grandes modelos, soportando operaciones matriciales en FP8/FP4/BF16 y operadores especializados como MoE y atención. El núcleo es Mega MoE, que combina los cinco pasos de inferencia en un solo kernel, utilizando NVLink y Tensor Core en paralelo, reduciendo significativamente la espera y el traslado de datos; Actualmente solo soporta FP8×FP4, requiere PyTorch 2.9+, y los datos de rendimiento se publicarán posteriormente. La actualización también introduce multiplicación de matrices FP8×FP4, puntuación de atención FP4, PDL y optimizaciones más rápidas de JIT, además de adaptar la disposición de datos DeepEPv2 MoE.

MeNews

2026-05-14 18:50:03

Generación de resúmenes en curso

ME News Noticias, 16 de abril (UTC+8), según la monitorización de Dongcha Beating, DeepSeek lanzó hoy la mayor actualización desde la apertura de DeepGEMM. Esta biblioteca de operadores GPU, lanzada durante la “Semana de código abierto” en febrero del año pasado, originalmente solo realizaba multiplicaciones de matrices en FP8, ahora se ha expandido para cubrir una biblioteca completa de operadores clave para la inferencia de modelos grandes, soportando operaciones matriciales en múltiples precisiones como FP8, FP4, BF16, así como operadores especializados para MoE y puntuación de atención. La incorporación principal es Mega MoE. La arquitectura MoE (experto híbrido) es la base de modelos como DeepSeek V3, y durante la inferencia requiere ejecutar cinco pasos en secuencia: distribución EP, primera transformación lineal, activación SwiGLU, segunda transformación lineal y fusión EP. La práctica tradicional consiste en llamar a cinco kernels independientes en secuencia, cada uno esperando a que el anterior termine y moviendo datos en la memoria de la GPU. Mega MoE fusiona estos cinco pasos en un solo kernel, permitiendo que la comunicación NVLink y el cálculo con Tensor Core ocurran simultáneamente, eliminando esperas intermedias y transferencias de datos. Actualmente solo soporta combinaciones de precisión FP8×FP4, requiere PyTorch 2.9 o superior, y el equipo indica que todavía están optimizando, con datos de rendimiento que se publicarán posteriormente. Otros añadidos incluyen: multiplicación de matrices en precisión mixta FP8×FP4, soporte para operadores de puntuación de atención en FP4 con mayor tamaño de MTP (Indexer), PDL (inicio de dependencia programada, una optimización de programación GPU para reducir la latencia de inicio de kernels), velocidad de compilación JIT más rápida, y varias optimizaciones para operaciones matriciales MoE. Esta actualización también adapta la disposición de datos MoE de DeepEPv2. La descripción del PR señala específicamente: “Esta publicación está relacionada únicamente con el desarrollo de DeepGEMM y no con el lanzamiento de modelos internos.” (Fuente: BlockBeats)

DEEPSEEK-1,91%

MEGA-0,62%

KERNEL2,68%

ME1,93%

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
1.66M Popularidad
#
IsraelStrikesIranBTCPlunges
46.68K Popularidad
#
#DailyPolymarketHotspot
936.91K Popularidad
#
JaneStreetReducesBitcoinETFHoldings
105.1K Popularidad
#
TrumpVisitsChina
53.39K Popularidad

Fijado

La biblioteca de operadores GPU de código abierto DeepSeek DeepGEMM ha recibido una actualización importante, añadiendo Mega MoE que fusiona los cinco pasos de cálculo de MoE en un solo kernel

Temas de actualidad

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Fijado