Glosario IA
El diccionario completo de la Inteligencia Artificial
GPU Passthrough
Técnica que permite a una máquina virtual acceder directa y exclusivamente al hardware GPU físico sin una capa de virtualización intermedia. Este enfoque ofrece rendimiento nativo pero limita el uso compartido de la GPU entre varias máquinas virtuales.
Virtual GPU (vGPU)
Tecnología de virtualización que divide una GPU física en múltiples instancias virtuales compartidas entre diferentes máquinas virtuales o contenedores. Cada vGPU funciona como una GPU independiente con sus propios recursos asignados.
Multi-Instance GPU (MIG)
Arquitectura NVIDIA que permite particionar una GPU Ampere en múltiples instancias aisladas con recursos dedicados (computación, memoria, caché). MIG garantiza un aislamiento estricto entre las instancias para asegurar la calidad del servicio.
Time-Sliced Sharing
Método de uso compartido de GPU donde múltiples usuarios alternan el acceso a la GPU mediante segmentos de tiempo (time slices). Este enfoque maximiza la utilización pero puede introducir latencia variable según la carga.
CUDA Virtualization
Virtualización específica de la API CUDA que permite a las aplicaciones de GPU ejecutarse en entornos virtualizados con rendimiento optimizado. Incluye la interceptación y enrutamiento de llamadas CUDA hacia los recursos GPU apropiados.
API Forwarding
Mecanismo que intercepta las llamadas a API gráficas o de computación desde las máquinas virtuales y las redirige hacia la GPU física del host. Permite compatibilidad con aplicaciones existentes sin modificación del código.
Profile-based Allocation
Estrategia de asignación de GPU basada en perfiles predefinidos de recursos (memoria, computación, ancho de banda). Permite adaptar con precisión los recursos GPU a las necesidades específicas de las diferentes cargas de trabajo.
GPU Partitioning
Proceso de división lógica o física de los recursos GPU en segmentos más pequeños asignables a diferentes aplicaciones o máquinas virtuales. Incluye la partición de memoria, unidades de computación y controladores de memoria.
Passthrough Mediado
Híbrido entre el passthrough directo y la virtualización completa, ofreciendo acceso casi nativo a la GPU con una capa de mediación mínima. Combina rendimiento óptimo con mejor gestión de recursos y aislamiento.
Planificador de GPU
Componente que gestiona la programación y asignación de recursos GPU entre múltiples solicitudes concurrentes. Optimiza el uso de la GPU respetando prioridades y restricciones de calidad de servicio.
Acceso Directo a GPU
Arquitectura que permite a aplicaciones virtualizadas acceder directamente a recursos GPU sin pasar por capas de emulación de software. Reduce la latencia y maximiza el rendimiento computacional.
Gestor de GPU Virtual
Software de administración centralizado que gestiona el ciclo de vida de instancias vGPU, su asignación y monitorización. Coordina los recursos GPU disponibles según las políticas definidas por el administrador.
Virtualización de Memoria GPU
Técnica de abstracción de la memoria GPU física que permite a múltiples VMs compartir la VRAM manteniendo la ilusión de memoria dedicada. Incluye paginación, asignación dinámica y aislamiento de memoria.
SR-IOV para GPUs
Adaptación del estándar Single Root I/O Virtualization para GPUs, permitiendo la creación de funciones virtuales (VFs) con rutas de acceso directas al hardware. Ofrece aislamiento y rendimiento cercano al bare metal.
Contenedorización de GPU
Integración de recursos GPU en contenedores ligeros con aislamiento de controladores y bibliotecas CUDA. Permite despliegue rápido de aplicaciones GPU con sobrecarga mínima comparada con VMs.
Virtualización Remota de GPU
Arquitectura que permite acceder a recursos GPU remotos a través de la red como si fueran locales. Utiliza protocolos optimizados para minimizar la latencia y preservar el rendimiento computacional.
Asignación Dinámica de GPU
Capacidad de asignar y desasignar dinámicamente los recursos GPU según las necesidades instantáneas de las aplicaciones. Optimiza el uso de las GPU ajustando en tiempo real las cuotas de recursos.
Agrupación de GPU
Agregación de múltiples GPUs físicas en un grupo de recursos unificado y distribuible bajo demanda. Permite el balanceo de carga y la elasticidad de los recursos computacionales GPU a escala del centro de datos.