Глоссарий ИИ
Полный словарь искусственного интеллекта
GPU Passthrough
Technique permettant à une machine virtuelle d'accéder directement et exclusivement au matériel GPU physique sans couche de virtualisation intermédiaire. Cette approche offre des performances natives mais limite le partage du GPU entre plusieurs VMs.
Virtual GPU (vGPU)
Technologie de virtualisation qui divise un GPU physique en plusieurs instances virtuelles partagées entre différentes machines virtuelles ou conteneurs. Chaque vGPU fonctionne comme un GPU indépendant avec ses propres ressources allouées.
Multi-Instance GPU (MIG)
Architecture NVIDIA permettant de partitionner un GPU Ampère en plusieurs instances isolées avec des ressources dédiées (compute, mémoire, cache). MIG assure une isolation stricte entre les instances pour garantir la qualité de service.
Time-Sliced Sharing
Méthode de partage GPU où plusieurs utilisateurs alternent l'accès au GPU par tranches temporelles (time slices). Cette approche maximise l'utilisation mais peut introduire une latence variable selon la charge.
CUDA Virtualization
Virtualisation spécifique de l'API CUDA permettant aux applications GPU de s'exécuter dans des environnements virtualisés avec performances optimisées. Inclut l'interception et le routage des appels CUDA vers les ressources GPU appropriées.
API Forwarding
Mécanisme qui intercepte les appels d'API graphiques ou de calcul depuis les VMs et les redirige vers le GPU physique hôte. Permet la compatibilité avec les applications existantes sans modification du code.
Profile-based Allocation
Stratégie d'allocation GPU basée sur des profils prédéfinis de ressources (mémoire, compute, bande passante). Permet d'adapter précisément les ressources GPU aux besoins spécifiques des différentes charges de travail.
GPU Partitioning
Processus de division logique ou physique des ressources GPU en segments plus petits assignables à différentes applications ou VMs. Inclut le partitionnement de la mémoire, des unités de calcul et des contrôleurs mémoire.
Mediated Passthrough
Hybride entre le passthrough direct et la virtualisation complète, offrant un accès quasi-natif au GPU avec une couche de médiation minimale. Combine performances optimales avec une meilleure gestion des ressources et isolation.
GPU Scheduler
Composant qui gère l'ordonnancement et l'allocation des ressources GPU entre multiples requêtes concurrentes. Optimise l'utilisation du GPU tout en respectant les priorités et les contraintes de qualité de service.
Direct GPU Access
Architecture permettant aux applications virtualisées d'accéder directement aux ressources GPU sans passer par des couches d'émulation logicielles. Réduit la latence et maximise les performances computationnelles.
Virtual GPU Manager
Logiciel d'administration centralisé qui gère le cycle de vie des instances vGPU, leur allocation et leur monitoring. Coordonne les ressources GPU disponibles selon les politiques définies par l'administrateur.
GPU Memory Virtualization
Technique d'abstraction de la mémoire GPU physique permettant à plusieurs VMs de partager la VRAM tout en maintenant l'illusion d'une mémoire dédiée. Inclut le paging, l'allocation dynamique et l'isolation mémoire.
SR-IOV for GPUs
Adaptation du standard Single Root I/O Virtualization pour les GPU, permettant la création de fonctions virtuelles (VFs) avec des chemins d'accès directs au matériel. Offre isolation et performances proches du bare metal.
GPU Containerization
Intégration des ressources GPU dans des conteneurs légers avec isolation des pilotes et des bibliothèques CUDA. Permet un déploiement rapide d'applications GPU avec surcharge minimale comparée aux VMs.
Remote GPU Virtualization
Architecture permettant d'accéder à des ressources GPU distantes via le réseau comme si elles étaient locales. Utilise des protocoles optimisés pour minimiser la latence et préserver les performances computationnelles.
Dynamic GPU Allocation
Capacité d'allouer et de désallouer dynamiquement les ressources GPU selon les besoins instantanés des applications. Optimise l'utilisation des GPU en ajustant en temps réel les quotas de ressources.
GPU Pooling
Agrégation de plusieurs GPUs physiques en un pool de ressources unifié et distribuable à la demande. Permet l'équilibrage de charge et l'élasticité des ressources computationnelles GPU à l'échelle du datacenter.