¿Tiene sentido almacenar cada par KV? Especialmente cuando el modelo en realidad solo consultará una pequeña parte de ellos.
La idea de KVzap es muy sencilla: aprender a determinar qué entradas de caché no serán útiles en consultas posteriores y eliminarlas activamente. El resultado es que se puede comprimir el tamaño de la caché a la mitad o a una cuarta parte, sin apenas afectar el rendimiento.
Este método inteligente y dinámico de poda de caché KV, dependiente de la dependencia, tiene un significado práctico para mejorar la eficiencia de la inferencia del modelo y reducir los costos de almacenamiento. Especialmente en escenarios de despliegue a gran escala, este tipo de optimización todavía tiene un espacio bastante considerable.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
10 me gusta
Recompensa
10
3
Republicar
Compartir
Comentar
0/400
DogeBachelor
· hace9h
¿No es esto simplemente hacer el tonto? Las estrategias de caché KV anteriores eran realmente un desperdicio... comprimirlas a 1/4 aún funciona, está bien.
Ver originalesResponder0
AlphaWhisperer
· hace9h
Ja, este viejo problema de desperdiciar espacio de almacenamiento finalmente ha sido resuelto de manera efectiva, la idea de KVzap es realmente refrescante
Ver originalesResponder0
bridgeOops
· hace10h
Esta es la verdadera estrategia de optimización, no optimizar por optimizar. Una relación de compresión de 1/2 a 1/4, y los costos se reducen directamente.
¿Tiene sentido almacenar cada par KV? Especialmente cuando el modelo en realidad solo consultará una pequeña parte de ellos.
La idea de KVzap es muy sencilla: aprender a determinar qué entradas de caché no serán útiles en consultas posteriores y eliminarlas activamente. El resultado es que se puede comprimir el tamaño de la caché a la mitad o a una cuarta parte, sin apenas afectar el rendimiento.
Este método inteligente y dinámico de poda de caché KV, dependiente de la dependencia, tiene un significado práctico para mejorar la eficiencia de la inferencia del modelo y reducir los costos de almacenamiento. Especialmente en escenarios de despliegue a gran escala, este tipo de optimización todavía tiene un espacio bastante considerable.