Infrastructure ML - Glossaire IA

📖

termes

GPU (Graphics Processing Unit)

Processeur initialement conçu pour le rendu graphique, mais dont l'architecture parallèle le rend extrêmement efficace pour accélérer les calculs matriciels des algorithmes d'apprentissage profond.

📖

termes

TPU (Tensor Processing Unit)

Circuit intégré spécifique (ASIC) développé par Google, optimisé pour accélérer les opérations de multiplication de matrices et les activations des réseaux de neurones, notamment avec le framework TensorFlow.

📖

termes

Spot Instances

Instances de calcul cloud à coût réduit, disponibles à des tarifs variables et pouvant être interrompues par le fournisseur, souvent utilisées pour les tâches d'entraînement ML tolérantes aux interruptions.

📖

termes

Auto-scaling

Capacité d'une infrastructure à ajuster dynamiquement le nombre de ressources de calcul (serveurs, pods) en fonction de la charge de travail, pour optimiser les coûts et les performances des services d'inférence.

📖

termes

Model Serving Framework

Outil spécialisé (ex: TensorFlow Serving, TorchServe, Triton Inference Server) conçu pour déployer, servir et gérer efficacement des modèles de ML en production, en gérant le versionnement et le chargement dynamique.

📖

termes

Hybrid Cloud

Architecture combinant des ressources de calcul cloud publiques et privées (on-premise), permettant aux entreprises de flexibiliser leurs workloads ML en fonction des exigences de sécurité, de coût et de performance.

📖

termes

ML Pipeline Orchestrator

Système (ex: Kubeflow Pipelines, Airflow, Prefect) qui définit, exécute, surveille et orchestre les flux de travail de ML complexes, de la préparation des données à l'entraînement et au déploiement.

📖

termes

Resource Quotas

Mécanisme de gestion des ressources cloud/on-premise limitant la quantité de CPU, GPU, mémoire ou stockage qu'un utilisateur, un projet ou un namespace peut consommer, essentieliel pour la gestion des coûts et l'équité.

📖

termes

Cold Start

Latence initiale observée lors de la première requête à un service d'inférence serverless ou à un modèle fraîchement chargé, due au temps de provisionnement des ressources et de chargement du modèle en mémoire.

Glossaire IA

GPU (Graphics Processing Unit)

TPU (Tensor Processing Unit)

Spot Instances

Auto-scaling

Model Serving Framework

Hybrid Cloud

ML Pipeline Orchestrator

Resource Quotas

Cold Start

Aucun résultat trouvé