Quantization

Letra Q

Reducir un modelo bajando la precisión numérica de sus pesos. Misma capacidad, fracción de la memoria, casi la misma precisión.

Actualizado:

Definición operativa

La quantization reduce un modelo bajando la precisión numérica de sus pesos. De FP16 a INT8 a INT4. El mismo modelo, una fracción de la memoria, casi la misma precisión. Por eso la brecha entre modelos frontier y open source sigue cerrándose.