Glossario IA

Il dizionario completo dell'Intelligenza Artificiale

162

categorie

2.032

sottocategorie

23.060

termini

📖

termini

Batch dynamique

Stratégie de regroupement dynamique des requêtes d'inférence par lots pour maximiser l'utilisation du GPU, adaptant la taille du batch en temps réel selon la charge du système.

📖

termini

Pruning neuronal

Technique d'élagage sélectif des poids ou neurones peu importants dans un modèle LLM pour réduire sa taille et accélérer l'inférence sans dégradation significative des performances.

📖

termini

Speculative decoding

Technique d'accélération où un petit modèle plus rapide prédit plusieurs tokens à l'avance, puis un grand modèle les valide en parallèle, réduisant le nombre d'étapes de génération.

📖

termini

Mixed Precision Inference

Utilisation combinée de différentes précisions numériques (FP16, FP32, INT8) dans un même modèle pour optimiser le compromis entre vitesse, mémoire et précision pendant l'inférence.

📖

termini

Model Sharding

Technique de partitionnement d'un modèle LLM en fragments distribués sur plusieurs machines ou GPUs, permettant d'exécuter des modèles dépassant la capacité mémoire d'un seul dispositif.

📖

termini

CUDA Optimization

Ensemble de techniques d'optimisation spécifiques aux GPUs NVIDIA utilisant CUDA, incluant la fusion de kernels, le coalescing mémoire et l'occupation maximale des streaming multiprocessors.

📖

termini

Triton Inference Server

Plateforme de service d'inférence de NVIDIA optimisée pour le déploiement de modèles en production, supportant le batching dynamique, le multi-model serving et l'auto-scaling.

📖

termini

Request Scheduling

Algorithme d'ordonnancement des requêtes d'inférence pour optimiser l'utilisation des ressources et minimiser la latence globale, incluant des stratégies comme FCFS, priority queue oufair sharing.

📖

termini

Continuous Batching

Stratégie de traitement où de nouvelles requêtes sont ajoutées au batch en cours d'exécution dès que des slots se libèrent, maximisant le débit et réduisant la latence pour les requéries courtes.

🔍

Glossario IA

Batch dynamique

Pruning neuronal

Speculative decoding

Mixed Precision Inference

Model Sharding

CUDA Optimization

Triton Inference Server

Request Scheduling

Continuous Batching

Nessun risultato trovato