KV cache

Letra K

Tensores clave-valor almacenados que evitan recalcular tokens pasados. Llena la memoria en contextos largos y dispara el costo de inferencia.

Actualizado:

Definición operativa

La KV cache almacena tensores clave-valor de la atención para que los modelos eviten recalcular tokens pasados. Esto es lo que se llena en cargas de trabajo de contexto largo. También es lo que dispara tu costo de inferencia. El contexto largo no es gratis. La KV cache es el recibo.