Glossário IA
O dicionário completo da Inteligência Artificial
GPU Passthrough
Técnica que permite a uma máquina virtual aceder direta e exclusivamente ao hardware físico da GPU sem uma camada de virtualização intermédia. Esta abordagem oferece desempenho nativo, mas limita a partilha da GPU entre várias VMs.
GPU Virtual (vGPU)
Tecnologia de virtualização que divide uma GPU física em várias instâncias virtuais partilhadas entre diferentes máquinas virtuais ou contentores. Cada vGPU funciona como uma GPU independente com os seus próprios recursos alocados.
GPU Multi-Instância (MIG)
Arquitetura NVIDIA que permite particionar uma GPU Ampere em várias instâncias isoladas com recursos dedicados (computação, memória, cache). O MIG garante um isolamento rigoroso entre as instâncias para assegurar a qualidade de serviço.
Partilha por Fatias de Tempo
Método de partilha de GPU onde vários utilizadores alternam o acesso à GPU por fatias de tempo (time slices). Esta abordagem maximiza a utilização, mas pode introduzir uma latência variável dependendo da carga.
Virtualização CUDA
Virtualização específica da API CUDA que permite que as aplicações de GPU sejam executadas em ambientes virtualizados com desempenho otimizado. Inclui a interceção e o encaminhamento das chamadas CUDA para os recursos de GPU apropriados.
Encaminhamento de API
Mecanismo que interceta as chamadas de API gráficas ou de computação das VMs e as redireciona para a GPU física do anfitrião. Permite a compatibilidade com aplicações existentes sem modificação do código.
Alocação Baseada em Perfis
Estratégia de alocação de GPU baseada em perfis predefinidos de recursos (memória, computação, largura de banda). Permite adaptar precisamente os recursos da GPU às necessidades específicas das diferentes cargas de trabalho.
Particionamento de GPU
Processo de divisão lógica ou física dos recursos da GPU em segmentos menores atribuíveis a diferentes aplicações ou VMs. Inclui o particionamento da memória, das unidades de computação e dos controladores de memória.
Passthrough Mediado
Híbrido entre o passthrough direto e a virtualização completa, oferecendo acesso quase nativo à GPU com uma camada de mediação mínima. Combina desempenho ótimo com melhor gerenciamento de recursos e isolamento.
Agendador de GPU
Componente que gerencia o agendamento e a alocação de recursos da GPU entre múltiplas requisições concorrentes. Otimiza a utilização da GPU respeitando as prioridades e as restrições de qualidade de serviço.
Acesso Direto à GPU
Arquitetura que permite que aplicações virtualizadas acessem diretamente os recursos da GPU sem passar por camadas de emulação de software. Reduz a latência e maximiza o desempenho computacional.
Gerenciador de GPU Virtual
Software de administração centralizado que gerencia o ciclo de vida das instâncias vGPU, sua alocação e seu monitoramento. Coordena os recursos de GPU disponíveis de acordo com as políticas definidas pelo administrador.
Virtualização de Memória da GPU
Técnica de abstração da memória física da GPU permitindo que múltiplas VMs compartilhem a VRAM mantendo a ilusão de uma memória dedicada. Inclui paginação, alocação dinâmica e isolamento de memória.
SR-IOV para GPUs
Adaptação do padrão Single Root I/O Virtualization para GPUs, permitindo a criação de funções virtuais (VFs) com caminhos de acesso direto ao hardware. Oferece isolamento e desempenho próximos ao bare metal.
Containerização de GPU
Integração de recursos de GPU em contêineres leves com isolamento de drivers e bibliotecas CUDA. Permite uma implantação rápida de aplicações de GPU com sobrecarga mínima em comparação com VMs.
Virtualização Remota de GPU
Arquitetura que permite acessar recursos de GPU remotos via rede como se fossem locais. Utiliza protocolos otimizados para minimizar a latência e preservar o desempenho computacional.
Alocação Dinâmica de GPU
Capacidade de alocar e desalocar dinamicamente recursos de GPU de acordo com as necessidades instantâneas das aplicações. Otimiza a utilização das GPUs ajustando em tempo real as cotas de recursos.
Agrupamento de GPUs
Agregação de múltiplas GPUs físicas em um pool de recursos unificado e distribuível sob demanda. Permite o balanceamento de carga e a elasticidade dos recursos computacionais de GPU em escala de datacenter.