Glosario IA
El diccionario completo de la Inteligencia Artificial
Divergencia de Hilos
Fenómeno en el que hilos del mismo warp toman diferentes rutas de ejecución, causando serialización de ramas y reduciendo significativamente el rendimiento paralelo en GPU.
Conflictos de Bancos de Memoria Compartida
Contención que ocurre cuando múltiples hilos del mismo warp intentan acceder simultáneamente al mismo banco de memoria compartida, provocando serialización de los accesos.
Planificación de Warps
Mecanismo del planificador de GPU que optimiza la programación de warps para maximizar el uso de las unidades de cálculo y ocultar la latencia de memoria.
Desbordamiento de Registros
Fenómeno donde el compilador debe mover datos de los registros a la memoria local (lenta) cuando los registros son insuficientes, degradando significativamente el rendimiento.
Rendimiento de Instrucciones
Medida del número de instrucciones que pueden ejecutarse por ciclo de reloj, optimizada favoreciendo operaciones aritméticas nativas y evitando instrucciones complejas.
Bucle con Paso de Grid
Patrón de bucle donde cada hilo procesa múltiples elementos espaciados por el tamaño total de la grid, permitiendo procesar conjuntos de datos más grandes que la grid de hilos.
Desenrollado de Bucles
Técnica de optimización que elimina iteraciones de bucle duplicando el cuerpo, reduciendo la sobrecarga de control de bucle y aumentando el paralelismo a nivel de instrucción.
Ocultación de Latencia de Memoria
Estrategia que consiste en lanzar suficientes warps para que la GPU pueda cambiar a warps listos mientras otros esperan accesos a memoria.
Operaciones de Memoria Vectorial
Instrucciones que transfieren múltiples datos simultáneamente (float2, float4) entre memoria global y registros, mejorando el ancho de banda efectivo.
Grupos Cooperativos
API CUDA que permite una sincronización flexible y colectiva entre hilos más allá de los límites tradicionales de bloque, optimizando patrones de comunicación complejos.
Almacenamiento en Caché de Memoria de Textura
Uso de la memoria de textura con su caché optimizado para accesos espaciales, particularmente eficaz para patrones de acceso con localidad 2D.
Optimización de Operaciones Atómicas
Técnicas para reducir la contención en operaciones atómicas, incluyendo el uso de memoria compartida para agregación local antes de la actualización global.
Sobrecarga de Lanzamiento de Kernel
Costo temporal asociado al inicio de un kernel GPU, minimizado fusionando múltiples kernels pequeños en uno más grande o usando paralelismo dinámico.
Balance de Distribución de Trabajo
Optimización de la distribución del trabajo entre hilos para evitar desequilibrio de carga donde algunos hilos terminan mucho antes que otros.
Estrategia de Prebúsqueda
Técnica anticipativa de carga de datos en memoria compartida antes de su uso, enmascarando así la latencia de los accesos a memoria global.