Cuantificación y Compresión

📖

términos

Cuantificación Post-Entrenamiento (PTQ)

Técnica de reducción de precisión aplicada a un modelo ya entrenado, sin necesidad de reentrenamiento completo. Convierte los pesos y activaciones de alta precisión (ej: FP32) en representaciones de menor precisión (ej: INT8) para optimizar la inferencia.

📖

términos

Cuantificación Consciente del Entrenamiento (QAT)

Método donde las operaciones de cuantificación y desquantificación se integran en el grafo computacional durante el entrenamiento. Esto permite al modelo adaptarse a la pérdida de precisión, minimizando la degradación del rendimiento en comparación con PTQ.

📖

términos

Binarización de Redes Neuronales (BNN)

Forma extrema de cuantificación donde los pesos y/o activaciones se restringen a un único valor binario (+1 o -1). Permite ganancias considerables de cálculo y memoria al reemplazar las multiplicaciones por sumas/restas.

📖

términos

Poda Estructurada (Structured Pruning)

Técnica de compresión que elimina estructuras completas de pesos, como filtros, canales o cabezas de atención, en lugar de pesos individuales. Es más eficaz para acelerar el cálculo en hardware moderno que la poda no estructurada.

📖

términos

Poda No Estructurada (Unstructured Pruning)

Método de compresión que elimina pesos individuales en la red, generalmente aquellos de menor magnitud. Aunque puede reducir el tamaño del modelo, requiere soporte de hardware especializado (esparsidad) para acelerar el cálculo.

📖

términos

Factorización de Matrices de Bajo Rango

Técnica de compresión que descompone una matriz grande de pesos en dos o más matrices más pequeñas. Reduce el número de parámetros y las operaciones de multiplicación matricial, acelerando así las capas densas y convolucionales.

📖

términos

Distilación de Conocimiento (Knowledge Distillation)

Proceso de compresión donde un modelo pequeño

📖

términos

Codificación de Huffman para los Pesos

Método de compresión sin pérdida que aplica el algoritmo de codificación de Huffman a los pesos de un modelo. Asigna códigos binarios más cortos a los pesos más frecuentes, reduciendo el tamaño del archivo en disco sin afectar la velocidad de inferencia.

📖

términos

Compartición de Peso (Weight Sharing)

Técnica de compresión que agrupa los pesos en clusters y reemplaza cada peso por el índice del centroide de su cluster. Esto reduce el número de bits necesarios para almacenar cada peso y permite el uso de tablas de consulta (lookup tables) en la inferencia.

📖

términos

Descomposición de Tucker

Forma de descomposición tensorial aplicada a los tensores de peso (convoluciones 4D) para comprimirlos. Descompone un tensor en un núcleo central más pequeño y matrices de factores, reduciendo significativamente el número de parámetros y el costo computacional.

📖

términos

Descomposición CP (CANDECOMP/PARAFAC)

Método de descomposición tensorial que expresa un tensor como una suma de productos de vectores de rango uno. Se utiliza para comprimir las capas convolutivas aproximando el tensor de peso con un número reducido de componentes.

📖

términos

Red Neuronal de Ancho Variable (VNN)

Arquitectura de modelo donde el número de canales activos en cada capa puede variar dinámicamente según las restricciones de recursos. Permite un compromiso flexible entre precisión y costo computacional en tiempo de ejecución.

📖

términos

Cuantificación por Bloques (Blockwise Quantization)

Técnica que divide los tensores de peso o activaciones en bloques más pequeños y aplica una cuantificación independiente a cada bloque. Permite capturar mejor las variaciones locales de magnitud, reduciendo el error de cuantificación global.

📖

términos

Representación Numérica de Coma Flotante 8 bits (FP8)

Formato de datos de baja precisión que utiliza 8 bits para representar números en coma flotante, con diferentes variantes (E4M3, E5M2) para entrenamiento e inferencia. Ofrece un compromiso superior a los formatos enteros para ciertas cargas de trabajo de IA.

📖

términos

Esparsidad Estructurada N:M

Esquema de poda donde, para cada bloque de M pesos, exactamente N pesos se conservan (N < M). Este patrón regular está diseñado para ser acelerado eficientemente por las unidades de cálculo matricial especializadas (Tensor Cores) de las GPU modernas.

Glosario IA

Cuantificación Post-Entrenamiento (PTQ)

Cuantificación Consciente del Entrenamiento (QAT)

Binarización de Redes Neuronales (BNN)

Poda Estructurada (Structured Pruning)

Poda No Estructurada (Unstructured Pruning)

Factorización de Matrices de Bajo Rango

Distilación de Conocimiento (Knowledge Distillation)

Codificación de Huffman para los Pesos

Compartición de Peso (Weight Sharing)

Descomposición de Tucker

Descomposición CP (CANDECOMP/PARAFAC)

Red Neuronal de Ancho Variable (VNN)

Cuantificación por Bloques (Blockwise Quantization)

Representación Numérica de Coma Flotante 8 bits (FP8)

Esparsidad Estructurada N:M

No se encontraron resultados