Infraestrutura ML - Glossário IA

📖

termos

GPU (Graphics Processing Unit)

Processador inicialmente projetado para renderização gráfica, mas cuja arquitetura paralela o torna extremamente eficiente para acelerar os cálculos matriciais de algoritmos de aprendizado profundo.

📖

termos

TPU (Tensor Processing Unit)

Circuito integrado específico (ASIC) desenvolvido pelo Google, otimizado para acelerar as operações de multiplicação de matrizes e as ativações de redes neurais, especialmente com o framework TensorFlow.

📖

termos

Spot Instances

Instâncias de computação em nuvem de baixo custo, disponíveis a preços variáveis e que podem ser interrompidas pelo provedor, frequentemente usadas para tarefas de treinamento de ML tolerantes a interrupções.

📖

termos

Auto-scaling

Capacidade de uma infraestrutura de ajustar dinamicamente o número de recursos de computação (servidores, pods) em função da carga de trabalho, para otimizar os custos e o desempenho dos serviços de inferência.

📖

termos

Model Serving Framework

Ferramenta especializada (ex: TensorFlow Serving, TorchServe, Triton Inference Server) projetada para implantar, servir e gerenciar eficientemente modelos de ML em produção, gerenciando o versionamento e o carregamento dinâmico.

📖

termos

Hybrid Cloud

Arquitetura que combina recursos de computação em nuvem pública e privada (on-premise), permitindo que as empresas flexibilizem suas cargas de trabalho de ML de acordo com os requisitos de segurança, custo e desempenho.

📖

termos

ML Pipeline Orchestrator

Sistema (ex: Kubeflow Pipelines, Airflow, Prefect) que define, executa, monitora e orquestra fluxos de trabalho de ML complexos, desde a preparação de dados até o treinamento e a implantação.

📖

termos

Resource Quotas

Mecanismo de gerenciamento de recursos em nuvem/on-premise que limita a quantidade de CPU, GPU, memória ou armazenamento que um usuário, projeto ou namespace pode consumir, essencial para a gestão de custos e equidade.

📖

termos

Inicialização a Frio

Latência inicial observada na primeira requisição a um serviço de inferência serverless ou a um modelo recém-carregado, devido ao tempo de provisionamento de recursos e carregamento do modelo na memória.

Glossário IA

GPU (Graphics Processing Unit)

TPU (Tensor Processing Unit)

Spot Instances

Auto-scaling

Model Serving Framework

Hybrid Cloud

ML Pipeline Orchestrator

Resource Quotas

Inicialização a Frio

Nenhum resultado encontrado