Infrastructure ML - 인공지능 용어집

📖

용어

GPU (Graphics Processing Unit)

Processeur initialement conçu pour le rendu graphique, mais dont l'architecture parallèle le rend extrêmement efficace pour accélérer les calculs matriciels des algorithmes d'apprentissage profond.

📖

용어

TPU (Tensor Processing Unit)

Circuit intégré spécifique (ASIC) développé par Google, optimisé pour accélérer les opérations de multiplication de matrices et les activations des réseaux de neurones, notamment avec le framework TensorFlow.

📖

용어

Spot Instances

Instances de calcul cloud à coût réduit, disponibles à des tarifs variables et pouvant être interrompues par le fournisseur, souvent utilisées pour les tâches d'entraînement ML tolérantes aux interruptions.

📖

용어

Auto-scaling

Capacité d'une infrastructure à ajuster dynamiquement le nombre de ressources de calcul (serveurs, pods) en fonction de la charge de travail, pour optimiser les coûts et les performances des services d'inférence.

📖

용어

Model Serving Framework

Outil spécialisé (ex: TensorFlow Serving, TorchServe, Triton Inference Server) conçu pour déployer, servir et gérer efficacement des modèles de ML en production, en gérant le versionnement et le chargement dynamique.

📖

용어

Hybrid Cloud

Architecture combinant des ressources de calcul cloud publiques et privées (on-premise), permettant aux entreprises de flexibiliser leurs workloads ML en fonction des exigences de sécurité, de coût et de performance.

📖

용어

ML Pipeline Orchestrator

Système (ex: Kubeflow Pipelines, Airflow, Prefect) qui définit, exécute, surveille et orchestre les flux de travail de ML complexes, de la préparation des données à l'entraînement et au déploiement.

📖

용어

Resource Quotas

Mécanisme de gestion des ressources cloud/on-premise limitant la quantité de CPU, GPU, mémoire ou stockage qu'un utilisateur, un projet ou un namespace peut consommer, essentieliel pour la gestion des coûts et l'équité.

📖

용어

Cold Start

Latence initiale observée lors de la première requête à un service d'inférence serverless ou à un modèle fraîchement chargé, due au temps de provisionnement des ressources et de chargement du modèle en mémoire.

AI 용어집