AI 용어집
인공지능 완전 사전
GPU (Graphics Processing Unit)
Processeur initialement conçu pour le rendu graphique, mais dont l'architecture parallèle le rend extrêmement efficace pour accélérer les calculs matriciels des algorithmes d'apprentissage profond.
TPU (Tensor Processing Unit)
Circuit intégré spécifique (ASIC) développé par Google, optimisé pour accélérer les opérations de multiplication de matrices et les activations des réseaux de neurones, notamment avec le framework TensorFlow.
Spot Instances
Instances de calcul cloud à coût réduit, disponibles à des tarifs variables et pouvant être interrompues par le fournisseur, souvent utilisées pour les tâches d'entraînement ML tolérantes aux interruptions.
Auto-scaling
Capacité d'une infrastructure à ajuster dynamiquement le nombre de ressources de calcul (serveurs, pods) en fonction de la charge de travail, pour optimiser les coûts et les performances des services d'inférence.
Model Serving Framework
Outil spécialisé (ex: TensorFlow Serving, TorchServe, Triton Inference Server) conçu pour déployer, servir et gérer efficacement des modèles de ML en production, en gérant le versionnement et le chargement dynamique.
Hybrid Cloud
Architecture combinant des ressources de calcul cloud publiques et privées (on-premise), permettant aux entreprises de flexibiliser leurs workloads ML en fonction des exigences de sécurité, de coût et de performance.
ML Pipeline Orchestrator
Système (ex: Kubeflow Pipelines, Airflow, Prefect) qui définit, exécute, surveille et orchestre les flux de travail de ML complexes, de la préparation des données à l'entraînement et au déploiement.
Resource Quotas
Mécanisme de gestion des ressources cloud/on-premise limitant la quantité de CPU, GPU, mémoire ou stockage qu'un utilisateur, un projet ou un namespace peut consommer, essentieliel pour la gestion des coûts et l'équité.
Cold Start
Latence initiale observée lors de la première requête à un service d'inférence serverless ou à un modèle fraîchement chargé, due au temps de provisionnement des ressources et de chargement du modèle en mémoire.