KV cache

Letra K

Tensores clave-valor almacenados que evitan recalcular tokens pasados. Llena la memoria en contextos largos y dispara el costo de inferencia.

Actualizado: 4 de junio de 2026

Definición operativa

La KV cache almacena tensores clave-valor de la atención para que los modelos eviten recalcular tokens pasados. Esto es lo que se llena en cargas de trabajo de contexto largo. También es lo que dispara tu costo de inferencia. El contexto largo no es gratis. La KV cache es el recibo.

KV cache

Definición operativa

Configuración

Idioma

Tu espacio

Privacidad

Accesibilidad