Glosario IA
El diccionario completo de la Inteligencia Artificial
TF32 (TensorFloat-32)
Formato híbrido propietario de NVIDIA de 19 bits que combina 8 bits de exponente de FP16 y 10 bits de mantisa de FP32, optimizado para operaciones matriciales en los Tensor Cores de las GPU Ampere y Hopper.
Dynamic Range
Rango de valores representables entre el número normalizado más pequeño y el número flotante más grande, crítico en la elección de precisión ya que FP16 tiene un rango dinámico limitado (65504) comparado con FP32 (3.4×10³⁸).
Post-Training Quantization (PTQ)
Proceso de conversión de un modelo preentrenado en precisión completa a una precisión reducida (FP16, INT8, INT4) sin reentrenamiento, utilizando técnicas de calibración para determinar los factores de escala y sesgo óptimos.
Fused Multiply-Add (FMA)
Operación de hardware que combina multiplicación y suma en una sola instrucción (a×b+c) con redondeo único, fundamental para la aceleración de cálculos matriciales en precisión mixta y reducción de errores de redondeo acumulativos.
Numerical Stability
Propiedad de un algoritmo para mantener la precisión de los cálculos frente a errores de redondeo y desbordamiento/subdesbordamiento, particularmente crítica en precisión mixta donde el rango dinámico reducido puede desestabilizar ciertos cálculos.
INT8 Quantization
Técnica de compresión de pesos y activaciones neuronales en 8 bits enteros con signo (-128 a 127) con factores de escala y puntos cero, ofreciendo hasta 4x reducción de memoria y aceleración significativa en hardware compatible.
Precision Matrix Operations
Conjunto de operaciones lineales (GEMM, convolución) donde diferentes partes del cálculo utilizan diferentes precisiones - típicamente acumulación en FP32 con multiplicación en FP16/BF16 para optimizar el rendimiento en GPU modernas.