🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Memory Coalescing

Technique d'optimisation sur GPU où les accès mémoire contigus des threads sont regroupés en transactions uniques, réduisant la bande passante mémoire et augmentant le débit.

📖
termes

Cache Blocking

Stratégie de partitionnement des données en blocs de taille adaptée au cache pour maximiser la réutilisation des données locales et minimiser les défauts de cache.

📖
termes

NUMA-Aware Allocation

Allocation mémoire prenant en compte l'architecture Non-Uniform Memory Access pour placer les données près des cœurs qui les utilisent fréquemment, réduisant la latence d'accès.

📖
termes

Memory Pooling

Pré-allocation d'un grand bloc mémoire subdivisé en objets réutilisables, éliminant la surcharge des allocations/désallocations dynamiques fréquentes.

📖
termes

Zero-Copy Optimization

Technique permettant aux opérations d'accéder directement aux données sans copie intermédiaire entre les espaces mémoire, réduisant la consommation CPU et la bande passante.

📖
termes

Register Tiling

Utilisation des registres processeur pour stocker temporairement des tuiles de données, minimisant les accès à la mémoire hiérarchique plus lente.

📖
termes

Prefetching Instructions

Instructions spéciales chargeant anticipativement les données en cache avant leur utilisation effective, masquant la latence mémoire par recouvrement calcul/accès.

📖
termes

Memory Footprint Reduction

Ensemble de techniques (quantification, pruning, compression) visant à réduire la taille mémoire des modèles IA sans dégradation significative des performances.

📖
termes

Shared Memory Utilization

Optimisation de l'utilisation de la mémoire partagée GPU comme espace de données rapide et réutilisable entre les threads d'un même bloc.

📖
termes

Memory Bandwidth Saturation

État où les demandes d'accès mémoire dépassent la capacité du bus mémoire, devenant le goulot d'étranglement principal des performances de calcul.

📖
termes

Page Migration

Déplacement dynamique des pages mémoire entre les nœuds NUMA en fonction des patterns d'accès pour optimiser la localité des données.

📖
termes

Memory-Aware Scheduling

Ordonnancement des tâches prenant en compte les contraintes et patterns d'accès mémoire pour minimiser les contentions et maximiser le parallélisme.

📖
termes

Cache-Oblivious Algorithms

Algorithmes conçus pour performer efficacement sur toute hiérarchie de cache sans nécessiter de paramètres spécifiques aux tailles de cache.

📖
termes

Memory Hierarchy Optimization

Stratégie globale de placement des données selon leur fréquence d'accès et criticité temporelle à travers les niveaux de la hiérarchie mémoire.

📖
termes

Tensor Core Memory Layout

Organisation spécifique des tenseurs en mémoire pour maximiser l'efficacité des opérations matricielles sur les Tensor Cores NVIDIA.

📖
termes

Memory Access Divergence

Phénomène où les threads d'une warp GPU accèdent à des adresses mémoire non contiguës, dégradant les performances par sérialisation des accès.

📖
termes

HBM (High Bandwidth Memory) Integration

Architecture mémoire 3D empilée offrant une bande passante supérieure pour les charges de travail IA intensives, avec optimisation spécifique des patterns d'accès.

📖
termes

Memory-Mapped I/O Optimization

Technique permettant aux périphériques d'accéder directement à la mémoire système, réduisant les copies et la surcharge CPU dans les pipelines IA.

🔍

Aucun résultat trouvé