एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Memory Coalescing
Technique d'optimisation sur GPU où les accès mémoire contigus des threads sont regroupés en transactions uniques, réduisant la bande passante mémoire et augmentant le débit.
Cache Blocking
Stratégie de partitionnement des données en blocs de taille adaptée au cache pour maximiser la réutilisation des données locales et minimiser les défauts de cache.
NUMA-Aware Allocation
Allocation mémoire prenant en compte l'architecture Non-Uniform Memory Access pour placer les données près des cœurs qui les utilisent fréquemment, réduisant la latence d'accès.
Memory Pooling
Pré-allocation d'un grand bloc mémoire subdivisé en objets réutilisables, éliminant la surcharge des allocations/désallocations dynamiques fréquentes.
Zero-Copy Optimization
Technique permettant aux opérations d'accéder directement aux données sans copie intermédiaire entre les espaces mémoire, réduisant la consommation CPU et la bande passante.
Register Tiling
Utilisation des registres processeur pour stocker temporairement des tuiles de données, minimisant les accès à la mémoire hiérarchique plus lente.
Prefetching Instructions
Instructions spéciales chargeant anticipativement les données en cache avant leur utilisation effective, masquant la latence mémoire par recouvrement calcul/accès.
Memory Footprint Reduction
Ensemble de techniques (quantification, pruning, compression) visant à réduire la taille mémoire des modèles IA sans dégradation significative des performances.
Shared Memory Utilization
Optimisation de l'utilisation de la mémoire partagée GPU comme espace de données rapide et réutilisable entre les threads d'un même bloc.
Memory Bandwidth Saturation
État où les demandes d'accès mémoire dépassent la capacité du bus mémoire, devenant le goulot d'étranglement principal des performances de calcul.
Page Migration
Déplacement dynamique des pages mémoire entre les nœuds NUMA en fonction des patterns d'accès pour optimiser la localité des données.
Memory-Aware Scheduling
Ordonnancement des tâches prenant en compte les contraintes et patterns d'accès mémoire pour minimiser les contentions et maximiser le parallélisme.
Cache-Oblivious Algorithms
Algorithmes conçus pour performer efficacement sur toute hiérarchie de cache sans nécessiter de paramètres spécifiques aux tailles de cache.
Memory Hierarchy Optimization
Stratégie globale de placement des données selon leur fréquence d'accès et criticité temporelle à travers les niveaux de la hiérarchie mémoire.
Tensor Core Memory Layout
Organisation spécifique des tenseurs en mémoire pour maximiser l'efficacité des opérations matricielles sur les Tensor Cores NVIDIA.
Memory Access Divergence
Phénomène où les threads d'une warp GPU accèdent à des adresses mémoire non contiguës, dégradant les performances par sérialisation des accès.
HBM (High Bandwidth Memory) Integration
Architecture mémoire 3D empilée offrant une bande passante supérieure pour les charges de travail IA intensives, avec optimisation spécifique des patterns d'accès.
Memory-Mapped I/O Optimization
Technique permettant aux périphériques d'accéder directement à la mémoire système, réduisant les copies et la surcharge CPU dans les pipelines IA.