Optimisation des Transferts de Données

📖

termes

PCIe Bandwidth

Débit de données maximal transférable via le bus PCIe, crucial pour la vitesse de communication entre CPU et GPU dans les charges d'IA.

📖

termes

NVMe over Fabrics

Protocole permettant d'accéder à des stockages NVMe à travers un réseau, réduisant la latence pour les datasets massifs en IA.

📖

termes

GPUDirect Storage

Technologie NVIDIA permettant un transfert direct de données depuis le stockage vers la mémoire GPU, contournant le CPU et le RAM.

📖

termes

Memory Pinning

Processus de verrouillage de pages mémoire en RAM pour garantir un accès DMA (Direct Memory Access) continu et rapide par le GPU.

📖

termes

Zero-Copy

Technique d'optimisation où les données sont transférées directement entre périphériques sans copie intermédiaire en mémoire CPU.

📖

termes

Tensor Core Throughput

Capacité de calcul des Tensor Cores GPU, souvent limitée par la vitesse d'alimentation en données depuis la mémoire.

📖

termes

Data Pipeline Parallelism

Stratégie où le chargement, prétraitement et transfert de données s'exécutent en parallèle avec le calcul GPU pour masquer les latences.

📖

termes

Prefetching

Chargement anticipé des données en mémoire GPU avant qu'elles ne soient nécessaires par le calcul, pour maintenir le GPU occupé.

📖

termes

Host-to-Device Latency

Temps nécessaire pour initier et compléter un transfert de données depuis le CPU (hôte) vers le GPU (périphérique).

📖

termes

CUDA Stream

Séquence d'opérations exécutées sur le GPU dans un ordre spécifique, permettant de concurrencer transferts et calculs.

📖

termes

NUMA Awareness

Optimisation des allocations mémoire pour respecter la topologie NUMA des serveurs multi-CPU, réduisant les latences d'accès.

📖

termes

GPUDirect RDMA

Technologie permettant un transfert direct de données entre la mémoire GPU de différents nœuds via RDMA, sans copie CPU.

📖

termes

Asynchronous Data Transfer

Transfert de données exécuté en parallèle avec les calculs GPU, utilisant des streams CUDA pour masquer les latences.

📖

termes

Page-Locked Memory

Mémoire système non paginable, requise pour les transferts DMA asynchrones à haut débit vers le GPU.

Glossaire IA

PCIe Bandwidth

NVMe over Fabrics

GPUDirect Storage

Memory Pinning

Zero-Copy

Tensor Core Throughput

Data Pipeline Parallelism

Prefetching

Host-to-Device Latency

CUDA Stream

NUMA Awareness

GPUDirect RDMA

Asynchronous Data Transfer

Page-Locked Memory

Aucun résultat trouvé