Glossário IA
O dicionário completo da Inteligência Artificial
Aprendizado de Máquina Distribuído
Paradigma computacional onde o treinamento de modelos de ML é distribuído por vários nós de computação para processar volumes massivos de dados e reduzir o tempo de treinamento.
Servidor de Parâmetros
Arquitetura de distribuição onde os parâmetros do modelo são centralizados em servidores dedicados enquanto os workers calculam os gradientes localmente.
Paralelismo de Dados
Técnica onde os dados são particionados entre diferentes computadores que executam o mesmo modelo em diferentes subconjuntos de dados em paralelo.
Paralelismo de Modelo
Abordagem onde um único modelo é dividido entre várias máquinas, cada porção processando uma parte específica da rede neural ou do algoritmo.
Descida de Gradiente Distribuída
Variante da descida de gradiente onde os cálculos de gradientes são distribuídos por vários nós antes da agregação para atualizar os pesos do modelo.
Sharding
Técnica de particionamento horizontal de dados onde o conjunto de dados é dividido em fragmentos distribuídos por diferentes nós para um processamento paralelo eficiente.
Treinamento Síncrono
Método de treinamento distribuído onde todos os workers sincronizam seus gradientes a cada passo, garantindo consistência, mas podendo criar gargalos.
Treinamento Assíncrono
Abordagem onde os workers atualizam os parâmetros do modelo de forma independente sem esperar pelos outros, melhorando a velocidade ao custo de uma eventual consistência.
Aprendizagem Profunda Distribuída
Conjunto de técnicas que permitem o treinamento de redes neurais profundas em clusters de máquinas para processar conjuntos de dados e modelos massivos.
Dask
Biblioteca de computação paralela flexível para Python que estende pandas e NumPy para conjuntos de dados maiores que a memória, usando grafos de tarefas distribuídos.
TensorFlow Distribuído
Estratégias integradas do TensorFlow que permitem o treinamento distribuído de modelos em múltiplas GPUs e máquinas com sincronização automática de variáveis.
PyTorch Distribuído
Módulo DistributedDataParallel do PyTorch que permite o treinamento distribuído eficiente com comunicação interprocessos otimizada via NCCL e Gloo.
Hadoop YARN
ResourceManager do Hadoop que orquestra a alocação de recursos e o gerenciamento de aplicações em um ambiente de computação distribuída para Big Data.