Machine Learning em Escala

📖

termos

Aprendizado de Máquina Distribuído

Paradigma de treinamento de modelos de ML onde os cálculos são distribuídos por várias máquinas para processar conjuntos de dados massivos e reduzir o tempo de treinamento.

📖

termos

Servidor de Parâmetros

Arquitetura distribuída que centraliza os parâmetros do modelo em servidores dedicados, permitindo que os workers atualizem e sincronizem gradientes de forma assíncrona.

📖

termos

AllReduce

Algoritmo de comunicação coletiva que permite a redução e difusão sincronizada de gradientes entre todos os nós em um ambiente de treinamento distribuído.

📖

termos

Paralelismo de Dados

Estratégia de paralelização onde os dados são particionados em várias máquinas, cada uma treinando uma cópia idêntica do modelo com lotes diferentes.

📖

termos

Spark MLlib

Biblioteca de aprendizado de máquina escalável construída sobre Apache Spark, oferecendo implementações distribuídas de algoritmos clássicos de ML.

📖

termos

TensorFlow Distribuído

Framework de treinamento distribuído do TensorFlow usando estratégias como MirroredStrategy e MultiWorkerMirroredStrategy para escalar o treinamento.

📖

termos

Horovod

Framework open-source desenvolvido pela Uber usando o algoritmo AllReduce via MPI para treinamento distribuído eficiente de modelos de deep learning.

📖

termos

Ray

Framework de computação distribuída otimizado para aprendizado de máquina e IA, fornecendo primitivas para execução paralela e gerenciamento de estado em larga escala.

📖

termos

Petastorm

Biblioteca que permite acesso eficiente a conjuntos de dados de grande escala armazenados em Apache Parquet para treinamento distribuído de modelos de deep learning.

📖

termos

Dask-ML

Extensão do Dask que integra algoritmos de aprendizado de máquina escaláveis e ferramentas de paralelização para fluxos de trabalho de ML em clusters.

📖

termos

Kubeflow

Plataforma de código aberto baseada em Kubernetes para implantar e gerenciar pipelines complexos de ML em grande escala com orquestração conteinerizada.

📖

termos

MLflow

Plataforma de código aberto para gerenciar o ciclo de vida completo de projetos de ML, incluindo rastreamento, gerenciamento de modelos e reprodutibilidade em escala.

📖

termos

Feast

Feature store de código aberto que fornece uma camada de abstração para gerenciamento, versionamento e fornecimento de features em grande escala.

📖

termos

Vertex AI

Plataforma unificada do Google Cloud para treinamento, implantação e gerenciamento de modelos de ML em escala com AutoML e MLOps integrados.

📖

termos

SageMaker

Serviço totalmente gerenciado da AWS para treinamento distribuído, implantação e monitoramento de modelos de ML com otimização automática de recursos.

📖

termos

Sharding

Particionamento horizontal de dados ou do modelo em vários nós para permitir processamento paralelo e reduzir a carga por máquina.

📖

termos

Treino Elástico

Capacidade de ajustar dinamicamente o número de workers durante o treinamento para otimizar a utilização de recursos e reduzir custos.

Glossário IA

Aprendizado de Máquina Distribuído

Servidor de Parâmetros

AllReduce

Paralelismo de Dados

Spark MLlib

TensorFlow Distribuído

Horovod

Ray

Petastorm

Dask-ML

Kubeflow

MLflow

Feast

Vertex AI

SageMaker

Sharding

Treino Elástico

Nenhum resultado encontrado