Optimización de Transferencias de Datos

📖

términos

PCIe Bandwidth

Ancho de banda máximo de datos transferibles a través del bus PCIe, crucial para la velocidad de comunicación entre CPU y GPU en cargas de IA.

📖

términos

NVMe over Fabrics

Protocolo que permite acceder a almacenamientos NVMe a través de una red, reduciendo la latencia para datasets masivos en IA.

📖

términos

GPUDirect Storage

Tecnología NVIDIA que permite una transferencia directa de datos desde el almacenamiento hacia la memoria GPU, evitando el CPU y la RAM.

📖

términos

Memory Pinning

Proceso de bloqueo de páginas de memoria en RAM para garantizar un acceso DMA (Direct Memory Access) continuo y rápido por parte del GPU.

📖

términos

Zero-Copy

Técnica de optimización donde los datos se transfieren directamente entre dispositivos sin copia intermedia en memoria CPU.

📖

términos

Tensor Core Throughput

Capacidad de cálculo de los Tensor Cores GPU, a menudo limitada por la velocidad de alimentación de datos desde la memoria.

📖

términos

Data Pipeline Parallelism

Estrategia donde la carga, preprocesamiento y transferencia de datos se ejecutan en paralelo con el cálculo GPU para ocultar las latencias.

📖

términos

Prefetching

Carga anticipada de datos en memoria GPU antes de que sean necesarios para el cálculo, para mantener el GPU ocupado.

📖

términos

Latencia de Host a Dispositivo

Tiempo necesario para iniciar y completar una transferencia de datos desde la CPU (host) hacia la GPU (dispositivo).

📖

términos

Flujo CUDA

Secuencia de operaciones ejecutadas en la GPU en un orden específico, permitiendo la concurrencia de transferencias y cálculos.

📖

términos

Conciencia NUMA

Optimización de las asignaciones de memoria para respetar la topología NUMA de servidores multi-CPU, reduciendo las latencias de acceso.

📖

términos

GPUDirect RDMA

Tecnología que permite una transferencia directa de datos entre la memoria GPU de diferentes nodos mediante RDMA, sin copia en la CPU.

📖

términos

Transferencia Asíncrona de Datos

Transferencia de datos ejecutada en paralelo con los cálculos de la GPU, utilizando flujos CUDA para ocultar las latencias.

📖

términos

Memoria Bloqueada en Páginas

Memoria del sistema no paginable, requerida para transferencias DMA asíncronas de alto ancho de banda hacia la GPU.

Glosario IA

PCIe Bandwidth

NVMe over Fabrics

GPUDirect Storage

Memory Pinning

Zero-Copy

Tensor Core Throughput

Data Pipeline Parallelism

Prefetching

Latencia de Host a Dispositivo

Flujo CUDA

Conciencia NUMA

GPUDirect RDMA

Transferencia Asíncrona de Datos

Memoria Bloqueada en Páginas

No se encontraron resultados