Glosario IA
El diccionario completo de la Inteligencia Artificial
Operaciones FP16
Cálculos en coma flotante de media precisión (16 bits) que ofrecen hasta 8 veces más rendimiento que FP32 en los Tensor Cores, con reducción significativa del ancho de banda de memoria y del consumo energético.
TensorFloat-32 (TF32)
Formato numérico híbrido de NVIDIA que utiliza 8 bits de exponente (como FP32) y 10 bits de mantisa (como FP16), ofreciendo un compromiso óptimo entre rango dinámico y precisión para los Tensor Cores Ampere.
Multiplicación-Acumulación de Matrices Warp (WMMA)
API CUDA que permite a los warps de 32 hilos realizar eficientemente operaciones de multiplicación-acumulación matricial directamente en los Tensor Cores con acceso a registros fragmentados.
Kernels CUDA para Tensor Cores
Programas GPU específicamente optimizados para explotar las instrucciones Tensor Core, utilizando las primitivas WMMA o librerías de alto nivel para un rendimiento matricial máximo.
Fragmentación de Matrices
Técnica de particionamiento de matrices en fragmentos más pequeños distribuidos entre los hilos de un warp para ejecución paralela en las unidades Tensor Core, optimizando el uso de los recursos de cálculo.
Utilización de Tensor Cores
Métrica que mide el porcentaje de ciclos donde los Tensor Cores realizan cálculos útiles, crucial para evaluar la eficiencia de las optimizaciones e identificar cuellos de botella.
Cuantización INT8 para Inferencia
Conversión de pesos y activaciones de redes neuronales a enteros de 8 bits, permitiendo hasta 32x de aceleración en los Tensor Cores con degradación controlada de la precisión.
Librería CublasLt para Tensor Cores
Extensión de la librería CUBLAS optimizada para Tensor Cores, ofreciendo rutinas GEMM (Multiplicación Matricial General) de alto rendimiento con soporte nativo de formatos de precisión mixta.
Tiling de Memoria Compartida
Estrategia de organización de datos en la memoria compartida de GPU en mosaicos óptimos para el acceso a Tensor Cores, minimizando conflictos de bancos y maximizando el ancho de banda.
Programación de Matrices a Nivel de Warp
Programación de operaciones matriciales a nivel de warps para maximizar la utilización de las tuberías de Tensor Core, considerando latencias y dependencias de datos.
Presión de Registros de Tensor Core
Restricción relacionada con el número limitado de registros por SM, afectando la capacidad de paralelizar operaciones de Tensor Core y requiriendo un equilibrio entre ocupación y uso eficiente de unidades.
Puntos de Referencia de Aprendizaje Profundo
Suites de pruebas como MLPerf que evalúan el rendimiento de las optimizaciones de Tensor Core en cargas de trabajo reales de entrenamiento e inferencia de redes neuronales.
Precisión Mixta Automática (AMP)
Técnica automática de selección de precisión operativa que identifica operaciones de Tensor Core elegibles y mantiene copias FP32 para estabilidad numérica.
Coalescencia de Memoria de Tensor Core
Optimización de accesos a memoria para alinearse con patrones de acceso de Tensor Cores, agrupando transacciones en accesos contiguos para maximizar el rendimiento.
Soporte de Matrices Dispersas
Capacidad de Tensor Cores Ampere para procesar eficientemente matrices dispersas estructuradas, ofreciendo hasta 2x de aceleración para redes neuronales con dispersidad.