Glosario IA
El diccionario completo de la Inteligencia Artificial
Cuantificación
Proceso de reducción de la precisión numérica de los pesos y activaciones de un modelo de IA para optimizar la inferencia y reducir la huella de memoria.
Cuantificación de 8 bits
Técnica de compresión que reduce los pesos del modelo de 32 bits a 8 bits, ofreciendo un compromiso óptimo entre rendimiento y precisión para los LLM.
Cuantificación de 4 bits
Método de compresión extrema que reduce los pesos a 4 bits, permitiendo ganancias significativas en memoria pero con una posible pérdida de calidad.
Cuantificación Post-Entrenamiento (PTQ)
Técnica aplicada después del entrenamiento del modelo, convirtiendo los pesos a precisión reducida sin necesidad de reentrenamiento completo.
Entrenamiento Consciente de Cuantificación (QAT)
Enfoque de entrenamiento que simula los efectos de la cuantificación durante el proceso de aprendizaje para minimizar la pérdida de precisión.
Cuantificación Dinámica
Método aplicado en la inferencia donde las activaciones se cuantifican sobre la marcha, ofreciendo flexibilidad pero con sobrecarga computacional.
Cuantificación Estática
Enfoque que precalcula los parámetros de cuantificación antes de la inferencia, optimizando la velocidad a expensas de la flexibilidad.
Calibración de Cuantificación
Proceso de determinación de los parámetros óptimos de cuantificación (escala, punto cero) a partir de una muestra de datos representativos.
GPTQ
Cuantificación Post Entrenamiento Basada en Gradientes, técnica avanzada que optimiza iterativamente los pesos cuantificados para minimizar el error de reconstrucción.
AWQ
Cuantificación de Pesos Consciente de Activaciones, método que pondera la importancia de los pesos según la amplitud de las activaciones correspondientes.
Cuantificación Zero-shot
Técnica que no requiere datos de calibración, utilizando heurísticas basadas en la distribución de pesos para cuantificar el modelo.
Cuantificación de Precisión Mixta
Estrategia que aplica diferentes precisiones de cuantificación según las capas del modelo para optimizar el compromiso rendimiento/precisión.
Cuantificación Simétrica
Esquema de cuantificación donde el rango de valores está centrado alrededor de cero, simplificando los cálculos pero pudiendo subexplotar el rango dinámico.
Cuantificación Asimétrica
Enfoque que permite rangos de valores no centrados en cero, optimizando el uso del rango cuantificado para distribuciones asimétricas.
Factor de Escala
Parámetro multiplicativo utilizado para mapear los valores continuos en el rango cuantificado, crucial para la precisión de la cuantificación.
Punto Cero
Desplazamiento añadido durante la cuantificación asimétrica para alinear el valor cero en coma flotante con la representación cuantificada.
Ruido de Cuantificación
Error introducido por la reducción de precisión, que se manifiesta como una degradación del rendimiento del modelo debido a la aproximación de los pesos.
Ajuste Fino Consciente de Cuantificación
Proceso de ajuste ligero posterior a la cuantificación destinado a recuperar la precisión perdida durante la compresión del modelo.
SmoothQuant
Técnica de cuantificación que iguala la dificultad de cuantificación entre pesos y activaciones mediante transformación matemática previa.
LLM.int8()
Método específico de cuantificación de 8 bits para grandes modelos de lenguaje, que combina descomposición matricial y cuantificación híbrida.