Glosario IA
El diccionario completo de la Inteligencia Artificial
Registros de Memoria
Memoria más rápida y privada de cada hilo SM (Streaming Multiprocessor), utilizada para almacenar variables locales con una latencia de acceso de un ciclo de reloj.
Thrashing de Memoria
Fenómeno de rendimiento degradado durante accesos a memoria no optimizados que generan una alta tasa de fallos de caché y conflictos de bancos de memoria.
Conflictos de Bancos de Memoria
Competencia de acceso simultáneo a diferentes ubicaciones del mismo banco de memoria compartida, resultando en una serialización de accesos y reducción del rendimiento.
Transferencia Asíncrona de Memoria
Transferencias de datos CPU-GPU ejecutadas en paralelo con los cálculos de kernels mediante CUDA streams, enmascarando la latencia de memoria y optimizando el uso de la GPU.
Alineación de Memoria
Alineación de estructuras de datos en límites de bytes específicos (128, 256, 512 bits) para garantizar transacciones de memoria coalescentes y máximas.
Memoria de Cero Copia
Técnica que permite a la GPU acceder directamente a la memoria del host sin copia, utilizando memory mapping para reducir el consumo de memoria y los tiempos de transferencia.
CUDA Streams
Secuencia de operaciones ejecutadas en orden en la GPU permitiendo el paralelismo de tareas y la superposición cálculo-transferencia para optimizar el uso de recursos.
Pool de Memoria
Pre-asignación de un bloque de memoria GPU para asignaciones/desasignaciones rápidas, reduciendo la fragmentación y los costos de asignación dinámica durante la ejecución.
Prefetching de Memoria
Carga anticipada de datos en la memoria caché de la GPU antes de su uso efectivo, enmascarando la latencia de memoria y mejorando el paralelismo instrucción-datos.
Paginación de Memoria
Gestión de páginas de memoria entre CPU y GPU que implica migración bajo demanda y expulsión basada en el uso para optimizar la utilización de la memoria limitada de la GPU.
Direccionamiento Virtual Unificado CUDA
Espacio de direccionamiento virtual único que combina memoria del host y del dispositivo, permitiendo transferencias transparentes y punteros válidos entre CPU y GPU.
Ocupación de Memoria
Relación de warps activos por SM afectada por el uso de memoria, determinando el nivel de paralelismo alcanzable y la eficiencia en la utilización de los recursos de la GPU.