🏠 Home
Benchmark
📊 Tutti i benchmark 🦖 Dinosauro v1 🦖 Dinosauro v2 ✅ App To-Do List 🎨 Pagine libere creative 🎯 FSACB - Ultimate Showcase 🌍 Benchmark traduzione
Modelli
🏆 Top 10 modelli 🆓 Modelli gratuiti 📋 Tutti i modelli ⚙️ Kilo Code
Risorse
💬 Libreria di prompt 📖 Glossario IA 🔗 Link utili

Glossario IA

Il dizionario completo dell'Intelligenza Artificiale

162
categorie
2.032
sottocategorie
23.060
termini
📖
termini

Batch dynamique

Stratégie de regroupement dynamique des requêtes d'inférence par lots pour maximiser l'utilisation du GPU, adaptant la taille du batch en temps réel selon la charge du système.

📖
termini

Pruning neuronal

Technique d'élagage sélectif des poids ou neurones peu importants dans un modèle LLM pour réduire sa taille et accélérer l'inférence sans dégradation significative des performances.

📖
termini

Speculative decoding

Technique d'accélération où un petit modèle plus rapide prédit plusieurs tokens à l'avance, puis un grand modèle les valide en parallèle, réduisant le nombre d'étapes de génération.

📖
termini

Mixed Precision Inference

Utilisation combinée de différentes précisions numériques (FP16, FP32, INT8) dans un même modèle pour optimiser le compromis entre vitesse, mémoire et précision pendant l'inférence.

📖
termini

Model Sharding

Technique de partitionnement d'un modèle LLM en fragments distribués sur plusieurs machines ou GPUs, permettant d'exécuter des modèles dépassant la capacité mémoire d'un seul dispositif.

📖
termini

CUDA Optimization

Ensemble de techniques d'optimisation spécifiques aux GPUs NVIDIA utilisant CUDA, incluant la fusion de kernels, le coalescing mémoire et l'occupation maximale des streaming multiprocessors.

📖
termini

Triton Inference Server

Plateforme de service d'inférence de NVIDIA optimisée pour le déploiement de modèles en production, supportant le batching dynamique, le multi-model serving et l'auto-scaling.

📖
termini

Request Scheduling

Algorithme d'ordonnancement des requêtes d'inférence pour optimiser l'utilisation des ressources et minimiser la latence globale, incluant des stratégies comme FCFS, priority queue oufair sharing.

📖
termini

Continuous Batching

Stratégie de traitement où de nouvelles requêtes sont ajoutées au batch en cours d'exécution dès que des slots se libèrent, maximisant le débit et réduisant la latence pour les requéries courtes.

🔍

Nessun risultato trovato