Optimisation Mémoire HPC

📖

termes

Memory Coalescing

Technique d'optimisation sur GPU où les accès mémoire contigus des threads sont regroupés en transactions uniques, réduisant la bande passante mémoire et augmentant le débit.

📖

termes

Cache Blocking

Stratégie de partitionnement des données en blocs de taille adaptée au cache pour maximiser la réutilisation des données locales et minimiser les défauts de cache.

📖

termes

NUMA-Aware Allocation

Allocation mémoire prenant en compte l'architecture Non-Uniform Memory Access pour placer les données près des cœurs qui les utilisent fréquemment, réduisant la latence d'accès.

📖

termes

Memory Pooling

Pré-allocation d'un grand bloc mémoire subdivisé en objets réutilisables, éliminant la surcharge des allocations/désallocations dynamiques fréquentes.

📖

termes

Zero-Copy Optimization

Technique permettant aux opérations d'accéder directement aux données sans copie intermédiaire entre les espaces mémoire, réduisant la consommation CPU et la bande passante.

📖

termes

Register Tiling

Utilisation des registres processeur pour stocker temporairement des tuiles de données, minimisant les accès à la mémoire hiérarchique plus lente.

📖

termes

Prefetching Instructions

Instructions spéciales chargeant anticipativement les données en cache avant leur utilisation effective, masquant la latence mémoire par recouvrement calcul/accès.

📖

termes

Memory Footprint Reduction

Ensemble de techniques (quantification, pruning, compression) visant à réduire la taille mémoire des modèles IA sans dégradation significative des performances.

📖

termes

Shared Memory Utilization

Optimisation de l'utilisation de la mémoire partagée GPU comme espace de données rapide et réutilisable entre les threads d'un même bloc.

📖

termes

Memory Bandwidth Saturation

État où les demandes d'accès mémoire dépassent la capacité du bus mémoire, devenant le goulot d'étranglement principal des performances de calcul.

📖

termes

Page Migration

Déplacement dynamique des pages mémoire entre les nœuds NUMA en fonction des patterns d'accès pour optimiser la localité des données.

📖

termes

Memory-Aware Scheduling

Ordonnancement des tâches prenant en compte les contraintes et patterns d'accès mémoire pour minimiser les contentions et maximiser le parallélisme.

📖

termes

Cache-Oblivious Algorithms

Algorithmes conçus pour performer efficacement sur toute hiérarchie de cache sans nécessiter de paramètres spécifiques aux tailles de cache.

📖

termes

Memory Hierarchy Optimization

Stratégie globale de placement des données selon leur fréquence d'accès et criticité temporelle à travers les niveaux de la hiérarchie mémoire.

📖

termes

Tensor Core Memory Layout

Organisation spécifique des tenseurs en mémoire pour maximiser l'efficacité des opérations matricielles sur les Tensor Cores NVIDIA.

📖

termes

Memory Access Divergence

Phénomène où les threads d'une warp GPU accèdent à des adresses mémoire non contiguës, dégradant les performances par sérialisation des accès.

📖

termes

HBM (High Bandwidth Memory) Integration

Architecture mémoire 3D empilée offrant une bande passante supérieure pour les charges de travail IA intensives, avec optimisation spécifique des patterns d'accès.

📖

termes

Memory-Mapped I/O Optimization

Technique permettant aux périphériques d'accéder directement à la mémoire système, réduisant les copies et la surcharge CPU dans les pipelines IA.

Glossaire IA

Memory Coalescing

Cache Blocking

NUMA-Aware Allocation

Memory Pooling

Zero-Copy Optimization

Register Tiling

Prefetching Instructions

Memory Footprint Reduction

Shared Memory Utilization

Memory Bandwidth Saturation

Page Migration

Memory-Aware Scheduling

Cache-Oblivious Algorithms

Memory Hierarchy Optimization

Tensor Core Memory Layout

Memory Access Divergence

HBM (High Bandwidth Memory) Integration

Memory-Mapped I/O Optimization

Aucun résultat trouvé