Glossario IA
Il dizionario completo dell'Intelligenza Artificiale
Batch dynamique
Stratégie de regroupement dynamique des requêtes d'inférence par lots pour maximiser l'utilisation du GPU, adaptant la taille du batch en temps réel selon la charge du système.
Pruning neuronal
Technique d'élagage sélectif des poids ou neurones peu importants dans un modèle LLM pour réduire sa taille et accélérer l'inférence sans dégradation significative des performances.
Speculative decoding
Technique d'accélération où un petit modèle plus rapide prédit plusieurs tokens à l'avance, puis un grand modèle les valide en parallèle, réduisant le nombre d'étapes de génération.
Mixed Precision Inference
Utilisation combinée de différentes précisions numériques (FP16, FP32, INT8) dans un même modèle pour optimiser le compromis entre vitesse, mémoire et précision pendant l'inférence.
Model Sharding
Technique de partitionnement d'un modèle LLM en fragments distribués sur plusieurs machines ou GPUs, permettant d'exécuter des modèles dépassant la capacité mémoire d'un seul dispositif.
CUDA Optimization
Ensemble de techniques d'optimisation spécifiques aux GPUs NVIDIA utilisant CUDA, incluant la fusion de kernels, le coalescing mémoire et l'occupation maximale des streaming multiprocessors.
Triton Inference Server
Plateforme de service d'inférence de NVIDIA optimisée pour le déploiement de modèles en production, supportant le batching dynamique, le multi-model serving et l'auto-scaling.
Request Scheduling
Algorithme d'ordonnancement des requêtes d'inférence pour optimiser l'utilisation des ressources et minimiser la latence globale, incluant des stratégies comme FCFS, priority queue oufair sharing.
Continuous Batching
Stratégie de traitement où de nouvelles requêtes sont ajoutées au batch en cours d'exécution dès que des slots se libèrent, maximisant le débit et réduisant la latence pour les requéries courtes.