KV cache
Letra KTensores clave-valor almacenados que evitan recalcular tokens pasados. Llena la memoria en contextos largos y dispara el costo de inferencia.
Actualizado:
Definición operativa
La KV cache almacena tensores clave-valor de la atención para que los modelos eviten recalcular tokens pasados. Esto es lo que se llena en cargas de trabajo de contexto largo. También es lo que dispara tu costo de inferencia. El contexto largo no es gratis. La KV cache es el recibo.