Quantization

Letra Q

Reducir un modelo bajando la precisión numérica de sus pesos. Misma capacidad, fracción de la memoria, casi la misma precisión.

Actualizado: 4 de junio de 2026

Definición operativa

La quantization reduce un modelo bajando la precisión numérica de sus pesos. De FP16 a INT8 a INT4. El mismo modelo, una fracción de la memoria, casi la misma precisión. Por eso la brecha entre modelos frontier y open source sigue cerrándose.

Quantization

Definición operativa

Configuración

Idioma

Tu espacio

Privacidad

Accesibilidad