Glossário IA
O dicionário completo da Inteligência Artificial
Aprendizado de Máquina Distribuído
Paradigma de treinamento de modelos de ML onde os cálculos são distribuídos por várias máquinas para processar conjuntos de dados massivos e reduzir o tempo de treinamento.
Servidor de Parâmetros
Arquitetura distribuída que centraliza os parâmetros do modelo em servidores dedicados, permitindo que os workers atualizem e sincronizem gradientes de forma assíncrona.
AllReduce
Algoritmo de comunicação coletiva que permite a redução e difusão sincronizada de gradientes entre todos os nós em um ambiente de treinamento distribuído.
Paralelismo de Dados
Estratégia de paralelização onde os dados são particionados em várias máquinas, cada uma treinando uma cópia idêntica do modelo com lotes diferentes.
Spark MLlib
Biblioteca de aprendizado de máquina escalável construída sobre Apache Spark, oferecendo implementações distribuídas de algoritmos clássicos de ML.
TensorFlow Distribuído
Framework de treinamento distribuído do TensorFlow usando estratégias como MirroredStrategy e MultiWorkerMirroredStrategy para escalar o treinamento.
Horovod
Framework open-source desenvolvido pela Uber usando o algoritmo AllReduce via MPI para treinamento distribuído eficiente de modelos de deep learning.
Ray
Framework de computação distribuída otimizado para aprendizado de máquina e IA, fornecendo primitivas para execução paralela e gerenciamento de estado em larga escala.
Petastorm
Biblioteca que permite acesso eficiente a conjuntos de dados de grande escala armazenados em Apache Parquet para treinamento distribuído de modelos de deep learning.
Dask-ML
Extensão do Dask que integra algoritmos de aprendizado de máquina escaláveis e ferramentas de paralelização para fluxos de trabalho de ML em clusters.
Kubeflow
Plataforma de código aberto baseada em Kubernetes para implantar e gerenciar pipelines complexos de ML em grande escala com orquestração conteinerizada.
MLflow
Plataforma de código aberto para gerenciar o ciclo de vida completo de projetos de ML, incluindo rastreamento, gerenciamento de modelos e reprodutibilidade em escala.
Feast
Feature store de código aberto que fornece uma camada de abstração para gerenciamento, versionamento e fornecimento de features em grande escala.
Vertex AI
Plataforma unificada do Google Cloud para treinamento, implantação e gerenciamento de modelos de ML em escala com AutoML e MLOps integrados.
SageMaker
Serviço totalmente gerenciado da AWS para treinamento distribuído, implantação e monitoramento de modelos de ML com otimização automática de recursos.
Sharding
Particionamento horizontal de dados ou do modelo em vários nós para permitir processamento paralelo e reduzir a carga por máquina.
Treino Elástico
Capacidade de ajustar dinamicamente o número de workers durante o treinamento para otimizar a utilização de recursos e reduzir custos.