Quantization
Letra QReducir un modelo bajando la precisión numérica de sus pesos. Misma capacidad, fracción de la memoria, casi la misma precisión.
Actualizado:
Definición operativa
La quantization reduce un modelo bajando la precisión numérica de sus pesos. De FP16 a INT8 a INT4. El mismo modelo, una fracción de la memoria, casi la misma precisión. Por eso la brecha entre modelos frontier y open source sigue cerrándose.