Glosario IA
El diccionario completo de la Inteligencia Artificial
Coalescimiento de Memoria
Técnica de optimización en GPU donde los accesos de memoria contiguos de los hilos se agrupan en transacciones únicas, reduciendo el ancho de banda de memoria y aumentando el rendimiento.
Bloqueo de Caché
Estrategia de particionamiento de datos en bloques de tamaño adecuado para la caché para maximizar la reutilización de datos locales y minimizar los fallos de caché.
Asignación Consciente de NUMA
Asignación de memoria que considera la arquitectura de Acceso No Uniforme a Memoria para colocar los datos cerca de los núcleos que los usan frecuentemente, reduciendo la latencia de acceso.
Agrupación de Memoria
Pre-asignación de un gran bloque de memoria subdividido en objetos reutilizables, eliminando la sobrecarga de asignaciones/desasignaciones dinámicas frecuentes.
Optimización de Cero Copia
Técnica que permite a las operaciones acceder directamente a los datos sin copia intermedia entre espacios de memoria, reduciendo el consumo de CPU y el ancho de banda.
Mosaico de Registros
Uso de registros del procesador para almacenar temporalmente mosaicos de datos, minimizando los accesos a la memoria jerárquica más lenta.
Instrucciones de Prebúsqueda
Instrucciones especiales que cargan anticipadamente los datos en la caché antes de su uso efectivo, enmascarando la latencia de memoria mediante superposición cálculo/acceso.
Reducción de Huella de Memoria
Conjunto de técnicas (cuantificación, poda, compresión) destinadas a reducir el tamaño en memoria de los modelos de IA sin degradación significativa del rendimiento.
Utilización de Memoria Compartida
Optimización del uso de la memoria compartida de GPU como espacio de datos rápido y reutilizable entre los hilos de un mismo bloque.
Saturación del Ancho de Banda de Memoria
Estado donde las solicitudes de acceso a memoria exceden la capacidad del bus de memoria, convirtiéndose en el cuello de botella principal del rendimiento computacional.
Migración de Páginas
Desplazamiento dinámico de páginas de memoria entre nodos NUMA según los patrones de acceso para optimizar la localidad de datos.
Planificación Consciente de la Memoria
Programación de tareas que considera las restricciones y patrones de acceso a memoria para minimizar las contenciones y maximizar el paralelismo.
Algoritmos Independientes de la Caché
Algoritmos diseñados para funcionar eficientemente en cualquier jerarquía de caché sin requerir parámetros específicos de tamaños de caché.
Optimización de la Jerarquía de Memoria
Estrategia global de colocación de datos según su frecuencia de acceso y criticidad temporal a través de los niveles de la jerarquía de memoria.
Disposición de Memoria de Tensor Cores
Organización específica de tensores en memoria para maximizar la eficiencia de operaciones matriciales en los Tensor Cores de NVIDIA.
Divergencia de Acceso a Memoria
Fenómeno donde los hilos de una warp de GPU acceden a direcciones de memoria no contiguas, degradando el rendimiento por serialización de accesos.
Integración HBM (Memoria de Alto Ancho de Banda)
Arquitectura de memoria 3D apilada que ofrece un ancho de banda superior para cargas de trabajo de IA intensivas, con optimización específica de patrones de acceso.
Optimización de E/S Mapeada en Memoria
Técnica que permite a los dispositivos acceder directamente a la memoria del sistema, reduciendo las copias y la sobrecarga de la CPU en los pipelines de IA.