El equipo de He Kai Ming ELF: El modelo de difusión de lenguaje finalmente funciona

robot
Generación de resúmenes en curso

Según la monitorización de Beating, el equipo de Hè Kǎimíng del MIT publicó el modelo de difusión de lenguaje ELF (Embedded Language Flows). No utilizó la ruta autoregresiva al estilo GPT de «predecir el siguiente token», sino que colocó la generación de texto en un espacio de incrustación continua, y solo en el paso final lo convirtió de nuevo en tokens discretos.

El modelo de difusión ya es maduro en la generación de imágenes, pero en el texto siempre ha sido incómodo: las imágenes son señales continuas por naturaleza, mientras que el lenguaje está compuesto por tokens discretos. Antes, muchos modelos de difusión continua para texto, o bien introducían supervisión a nivel de token repetidamente en la trayectoria de generación, o bien requerían decodificadores independientes adicionales. La aproximación de ELF es más limpia: la mayor parte de los pasos solo eliminan ruido en el espacio de vectores continuos, y en el paso final se realiza la discretización con una red de pesos compartidos.

Los resultados experimentales también son impactantes. En la evaluación de generación incondicional de OpenWebText, ELF-B con 105 millones de parámetros alcanzó aproximadamente 24.1 en Gen. PPL con 32 pasos de muestreo, superando varias líneas base de modelos de difusión de lenguaje discretos y continuos. Más importante aún, ELF-B utilizó solo unos 45 mil millones de tokens de entrenamiento, mientras que los métodos comparados generalmente superan los 500 mil millones, lo que significa que usó aproximadamente una orden de magnitud menos de tokens de entrenamiento. Este resultado al menos demuestra que la ruta de difusión continua no está bloqueada por la «discreción del lenguaje», y que los problemas anteriores probablemente residían en la interfaz de modelado y el diseño de muestreo.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado