Cuantificación

📖

términos

Proceso de reducción de la precisión numérica de los pesos y activaciones de un modelo de IA para optimizar la inferencia y reducir la huella de memoria.

📖

términos

Cuantificación de 8 bits

Técnica de compresión que reduce los pesos del modelo de 32 bits a 8 bits, ofreciendo un compromiso óptimo entre rendimiento y precisión para los LLM.

📖

términos

Cuantificación de 4 bits

Método de compresión extrema que reduce los pesos a 4 bits, permitiendo ganancias significativas en memoria pero con una posible pérdida de calidad.

📖

términos

Cuantificación Post-Entrenamiento (PTQ)

Técnica aplicada después del entrenamiento del modelo, convirtiendo los pesos a precisión reducida sin necesidad de reentrenamiento completo.

📖

términos

Entrenamiento Consciente de Cuantificación (QAT)

Enfoque de entrenamiento que simula los efectos de la cuantificación durante el proceso de aprendizaje para minimizar la pérdida de precisión.

📖

términos

Cuantificación Dinámica

Método aplicado en la inferencia donde las activaciones se cuantifican sobre la marcha, ofreciendo flexibilidad pero con sobrecarga computacional.

📖

términos

Cuantificación Estática

Enfoque que precalcula los parámetros de cuantificación antes de la inferencia, optimizando la velocidad a expensas de la flexibilidad.

📖

términos

Calibración de Cuantificación

Proceso de determinación de los parámetros óptimos de cuantificación (escala, punto cero) a partir de una muestra de datos representativos.

📖

términos

GPTQ

Cuantificación Post Entrenamiento Basada en Gradientes, técnica avanzada que optimiza iterativamente los pesos cuantificados para minimizar el error de reconstrucción.

📖

términos

AWQ

Cuantificación de Pesos Consciente de Activaciones, método que pondera la importancia de los pesos según la amplitud de las activaciones correspondientes.

📖

términos

Cuantificación Zero-shot

Técnica que no requiere datos de calibración, utilizando heurísticas basadas en la distribución de pesos para cuantificar el modelo.

📖

términos

Cuantificación de Precisión Mixta

Estrategia que aplica diferentes precisiones de cuantificación según las capas del modelo para optimizar el compromiso rendimiento/precisión.

📖

términos

Cuantificación Simétrica

Esquema de cuantificación donde el rango de valores está centrado alrededor de cero, simplificando los cálculos pero pudiendo subexplotar el rango dinámico.

📖

términos

Cuantificación Asimétrica

Enfoque que permite rangos de valores no centrados en cero, optimizando el uso del rango cuantificado para distribuciones asimétricas.

📖

términos

Factor de Escala

Parámetro multiplicativo utilizado para mapear los valores continuos en el rango cuantificado, crucial para la precisión de la cuantificación.

📖

términos

Punto Cero

Desplazamiento añadido durante la cuantificación asimétrica para alinear el valor cero en coma flotante con la representación cuantificada.

📖

términos

Ruido de Cuantificación

Error introducido por la reducción de precisión, que se manifiesta como una degradación del rendimiento del modelo debido a la aproximación de los pesos.

📖

términos

Ajuste Fino Consciente de Cuantificación

Proceso de ajuste ligero posterior a la cuantificación destinado a recuperar la precisión perdida durante la compresión del modelo.

📖

términos

SmoothQuant

Técnica de cuantificación que iguala la dificultad de cuantificación entre pesos y activaciones mediante transformación matemática previa.

📖

términos

LLM.int8()

Método específico de cuantificación de 8 bits para grandes modelos de lenguaje, que combina descomposición matricial y cuantificación híbrida.

Glosario IA

Cuantificación

Cuantificación de 8 bits

Cuantificación de 4 bits

Cuantificación Post-Entrenamiento (PTQ)

Entrenamiento Consciente de Cuantificación (QAT)

Cuantificación Dinámica

Cuantificación Estática

Calibración de Cuantificación

GPTQ

AWQ

Cuantificación Zero-shot

Cuantificación de Precisión Mixta

Cuantificación Simétrica

Cuantificación Asimétrica

Factor de Escala

Punto Cero

Ruido de Cuantificación

Ajuste Fino Consciente de Cuantificación

SmoothQuant

LLM.int8()

No se encontraron resultados