Glossário IA
O dicionário completo da Inteligência Artificial
GPU (Graphics Processing Unit)
Processador inicialmente projetado para renderização gráfica, mas cuja arquitetura paralela o torna extremamente eficiente para acelerar os cálculos matriciais de algoritmos de aprendizado profundo.
TPU (Tensor Processing Unit)
Circuito integrado específico (ASIC) desenvolvido pelo Google, otimizado para acelerar as operações de multiplicação de matrizes e as ativações de redes neurais, especialmente com o framework TensorFlow.
Spot Instances
Instâncias de computação em nuvem de baixo custo, disponíveis a preços variáveis e que podem ser interrompidas pelo provedor, frequentemente usadas para tarefas de treinamento de ML tolerantes a interrupções.
Auto-scaling
Capacidade de uma infraestrutura de ajustar dinamicamente o número de recursos de computação (servidores, pods) em função da carga de trabalho, para otimizar os custos e o desempenho dos serviços de inferência.
Model Serving Framework
Ferramenta especializada (ex: TensorFlow Serving, TorchServe, Triton Inference Server) projetada para implantar, servir e gerenciar eficientemente modelos de ML em produção, gerenciando o versionamento e o carregamento dinâmico.
Hybrid Cloud
Arquitetura que combina recursos de computação em nuvem pública e privada (on-premise), permitindo que as empresas flexibilizem suas cargas de trabalho de ML de acordo com os requisitos de segurança, custo e desempenho.
ML Pipeline Orchestrator
Sistema (ex: Kubeflow Pipelines, Airflow, Prefect) que define, executa, monitora e orquestra fluxos de trabalho de ML complexos, desde a preparação de dados até o treinamento e a implantação.
Resource Quotas
Mecanismo de gerenciamento de recursos em nuvem/on-premise que limita a quantidade de CPU, GPU, memória ou armazenamento que um usuário, projeto ou namespace pode consumir, essencial para a gestão de custos e equidade.
Inicialização a Frio
Latência inicial observada na primeira requisição a um serviço de inferência serverless ou a um modelo recém-carregado, devido ao tempo de provisionamento de recursos e carregamento do modelo na memória.