Infrastructure ML - AI Glossary

📖

terms

GPU (Graphics Processing Unit)

Processeur initialement conçu pour le rendu graphique, mais dont l'architecture parallèle le rend extrêmement efficace pour accélérer les calculs matriciels des algorithmes d'apprentissage profond.

📖

terms

TPU (Tensor Processing Unit)

Circuit intégré spécifique (ASIC) développé par Google, optimisé pour accélérer les opérations de multiplication de matrices et les activations des réseaux de neurones, notamment avec le framework TensorFlow.

📖

terms

Spot Instances

Instances de calcul cloud à coût réduit, disponibles à des tarifs variables et pouvant être interrompues par le fournisseur, souvent utilisées pour les tâches d'entraînement ML tolérantes aux interruptions.

📖

terms

Auto-scaling

Capacité d'une infrastructure à ajuster dynamiquement le nombre de ressources de calcul (serveurs, pods) en fonction de la charge de travail, pour optimiser les coûts et les performances des services d'inférence.

📖

terms

Model Serving Framework

Outil spécialisé (ex: TensorFlow Serving, TorchServe, Triton Inference Server) conçu pour déployer, servir et gérer efficacement des modèles de ML en production, en gérant le versionnement et le chargement dynamique.

📖

terms

Hybrid Cloud

Architecture combinant des ressources de calcul cloud publiques et privées (on-premise), permettant aux entreprises de flexibiliser leurs workloads ML en fonction des exigences de sécurité, de coût et de performance.

📖

terms

ML Pipeline Orchestrator

Système (ex: Kubeflow Pipelines, Airflow, Prefect) qui définit, exécute, surveille et orchestre les flux de travail de ML complexes, de la préparation des données à l'entraînement et au déploiement.

📖

terms

Resource Quotas

Mécanisme de gestion des ressources cloud/on-premise limitant la quantité de CPU, GPU, mémoire ou stockage qu'un utilisateur, un projet ou un namespace peut consommer, essentieliel pour la gestion des coûts et l'équité.

📖

terms

Cold Start

Latence initiale observée lors de la première requête à un service d'inférence serverless ou à un modèle fraîchement chargé, due au temps de provisionnement des ressources et de chargement du modèle en mémoire.

AI Glossary

GPU (Graphics Processing Unit)

TPU (Tensor Processing Unit)

Spot Instances

Auto-scaling

Model Serving Framework

Hybrid Cloud

ML Pipeline Orchestrator

Resource Quotas

Cold Start

No results found