Glosario IA
El diccionario completo de la Inteligencia Artificial
Cuantificación Post-Entrenamiento (PTQ)
Técnica de reducción de precisión aplicada a un modelo ya entrenado, sin necesidad de reentrenamiento completo. Convierte los pesos y activaciones de alta precisión (ej: FP32) en representaciones de menor precisión (ej: INT8) para optimizar la inferencia.
Cuantificación Consciente del Entrenamiento (QAT)
Método donde las operaciones de cuantificación y desquantificación se integran en el grafo computacional durante el entrenamiento. Esto permite al modelo adaptarse a la pérdida de precisión, minimizando la degradación del rendimiento en comparación con PTQ.
Binarización de Redes Neuronales (BNN)
Forma extrema de cuantificación donde los pesos y/o activaciones se restringen a un único valor binario (+1 o -1). Permite ganancias considerables de cálculo y memoria al reemplazar las multiplicaciones por sumas/restas.
Poda Estructurada (Structured Pruning)
Técnica de compresión que elimina estructuras completas de pesos, como filtros, canales o cabezas de atención, en lugar de pesos individuales. Es más eficaz para acelerar el cálculo en hardware moderno que la poda no estructurada.
Poda No Estructurada (Unstructured Pruning)
Método de compresión que elimina pesos individuales en la red, generalmente aquellos de menor magnitud. Aunque puede reducir el tamaño del modelo, requiere soporte de hardware especializado (esparsidad) para acelerar el cálculo.
Factorización de Matrices de Bajo Rango
Técnica de compresión que descompone una matriz grande de pesos en dos o más matrices más pequeñas. Reduce el número de parámetros y las operaciones de multiplicación matricial, acelerando así las capas densas y convolucionales.
Distilación de Conocimiento (Knowledge Distillation)
Proceso de compresión donde un modelo pequeño
Codificación de Huffman para los Pesos
Método de compresión sin pérdida que aplica el algoritmo de codificación de Huffman a los pesos de un modelo. Asigna códigos binarios más cortos a los pesos más frecuentes, reduciendo el tamaño del archivo en disco sin afectar la velocidad de inferencia.
Compartición de Peso (Weight Sharing)
Técnica de compresión que agrupa los pesos en clusters y reemplaza cada peso por el índice del centroide de su cluster. Esto reduce el número de bits necesarios para almacenar cada peso y permite el uso de tablas de consulta (lookup tables) en la inferencia.
Descomposición de Tucker
Forma de descomposición tensorial aplicada a los tensores de peso (convoluciones 4D) para comprimirlos. Descompone un tensor en un núcleo central más pequeño y matrices de factores, reduciendo significativamente el número de parámetros y el costo computacional.
Descomposición CP (CANDECOMP/PARAFAC)
Método de descomposición tensorial que expresa un tensor como una suma de productos de vectores de rango uno. Se utiliza para comprimir las capas convolutivas aproximando el tensor de peso con un número reducido de componentes.
Red Neuronal de Ancho Variable (VNN)
Arquitectura de modelo donde el número de canales activos en cada capa puede variar dinámicamente según las restricciones de recursos. Permite un compromiso flexible entre precisión y costo computacional en tiempo de ejecución.
Cuantificación por Bloques (Blockwise Quantization)
Técnica que divide los tensores de peso o activaciones en bloques más pequeños y aplica una cuantificación independiente a cada bloque. Permite capturar mejor las variaciones locales de magnitud, reduciendo el error de cuantificación global.
Representación Numérica de Coma Flotante 8 bits (FP8)
Formato de datos de baja precisión que utiliza 8 bits para representar números en coma flotante, con diferentes variantes (E4M3, E5M2) para entrenamiento e inferencia. Ofrece un compromiso superior a los formatos enteros para ciertas cargas de trabajo de IA.
Esparsidad Estructurada N:M
Esquema de poda donde, para cada bloque de M pesos, exactamente N pesos se conservan (N < M). Este patrón regular está diseñado para ser acelerado eficientemente por las unidades de cálculo matricial especializadas (Tensor Cores) de las GPU modernas.