Aprendizado de Máquina Distribuído

📖

termos

Aprendizado de Máquina Distribuído

Paradigma computacional onde o treinamento de modelos de ML é distribuído por vários nós de computação para processar volumes massivos de dados e reduzir o tempo de treinamento.

📖

termos

Servidor de Parâmetros

Arquitetura de distribuição onde os parâmetros do modelo são centralizados em servidores dedicados enquanto os workers calculam os gradientes localmente.

📖

termos

Paralelismo de Dados

Técnica onde os dados são particionados entre diferentes computadores que executam o mesmo modelo em diferentes subconjuntos de dados em paralelo.

📖

termos

Paralelismo de Modelo

Abordagem onde um único modelo é dividido entre várias máquinas, cada porção processando uma parte específica da rede neural ou do algoritmo.

📖

termos

Descida de Gradiente Distribuída

Variante da descida de gradiente onde os cálculos de gradientes são distribuídos por vários nós antes da agregação para atualizar os pesos do modelo.

📖

termos

Sharding

Técnica de particionamento horizontal de dados onde o conjunto de dados é dividido em fragmentos distribuídos por diferentes nós para um processamento paralelo eficiente.

📖

termos

Treinamento Síncrono

Método de treinamento distribuído onde todos os workers sincronizam seus gradientes a cada passo, garantindo consistência, mas podendo criar gargalos.

📖

termos

Treinamento Assíncrono

Abordagem onde os workers atualizam os parâmetros do modelo de forma independente sem esperar pelos outros, melhorando a velocidade ao custo de uma eventual consistência.

📖

termos

Aprendizagem Profunda Distribuída

Conjunto de técnicas que permitem o treinamento de redes neurais profundas em clusters de máquinas para processar conjuntos de dados e modelos massivos.

📖

termos

Dask

Biblioteca de computação paralela flexível para Python que estende pandas e NumPy para conjuntos de dados maiores que a memória, usando grafos de tarefas distribuídos.

📖

termos

TensorFlow Distribuído

Estratégias integradas do TensorFlow que permitem o treinamento distribuído de modelos em múltiplas GPUs e máquinas com sincronização automática de variáveis.

📖

termos

PyTorch Distribuído

Módulo DistributedDataParallel do PyTorch que permite o treinamento distribuído eficiente com comunicação interprocessos otimizada via NCCL e Gloo.

📖

termos

Hadoop YARN

ResourceManager do Hadoop que orquestra a alocação de recursos e o gerenciamento de aplicações em um ambiente de computação distribuída para Big Data.

Glossário IA