Machine Learning at Scale

📖

termes

Distributed Machine Learning

Paradigme d'entraînement de modèles ML où les calculs sont répartis sur plusieurs machines pour traiter des datasets massifs et réduire le temps d'entraînement.

📖

termes

Parameter Server

Architecture distribuée centralisant les paramètres du modèle sur des serveurs dédiés, permettant aux workers de mettre à jour et synchroniser les gradients de manière asynchrone.

📖

termes

AllReduce

Algorithme de communication collective permettant la réduction et la diffusion synchronisée des gradients entre tous les nœuds dans un environnement d'entraînement distribué.

📖

termes

Data Parallelism

Stratégie de parallélisation où les données sont partitionnées sur plusieurs machines, chacune entraînant une copie identique du modèle avec des batches différents.

📖

termes

Spark MLlib

Bibliothèque d'apprentissage automatique scalable construite sur Apache Spark, offrant des implémentations distribuées d'algorithmes ML classiques.

📖

termes

TensorFlow Distributed

Framework d'entraînement distribué de TensorFlow utilisant des stratégies comme MirroredStrategy et MultiWorkerMirroredStrategy pour scaler l'entraînement.

📖

termes

Horovod

Framework open-source développé par Uber utilisant l'algorithme AllReduce via MPI pour l'entraînement distribué efficace de modèles deep learning.

📖

termes

Ray

Framework de calcul distribué optimisé pour le machine learning et l'IA, fournissant des primitives pour l'exécution parallèle et la gestion d'état à grande échelle.

📖

termes

Petastorm

Bibliothèque permettant l'accès efficace aux datasets de grande taille stockés dans Apache Parquet pour l'entraînement distribué de modèles deep learning.

📖

termes

Dask-ML

Extension de Dask intégrant des algorithmes d'apprentissage automatique scalable et des outils de parallélisation pour les workflows ML sur des clusters.

📖

termes

Kubeflow

Plateforme open-source basée sur Kubernetes pour déployer et gérer des pipelines ML complexes à grande échelle avec orchestration conteneurisée.

📖

termes

MLflow

Plateforme open source pour gérer le cycle de vie complet des projets ML, incluant le tracking, la gestion des modèles et la reproductibilité à l'échelle.

📖

termes

Feast

Feature store open source fournissant une couche d'abstraction pour la gestion, le versioning et la serving de features à grande échelle.

📖

termes

Vertex AI

Plateforme unified de Google Cloud pour l'entraînement, le déploiement et la gestion de modèles ML à l'échelle avec AutoML et MLOps intégré.

📖

termes

SageMaker

Service AWS entièrement géré pour l'entraînement distribué, le déploiement et la monitoring de modèles ML avec optimisation automatique des ressources.

📖

termes

Sharding

Partitionnement horizontal des données ou du modèle sur plusieurs nœuds pour permettre le traitement parallèle et réduire la charge par machine.

📖

termes

Elastic Training

Capacité d'adapter dynamiquement le nombre de workers pendant l'entraînement pour optimiser l'utilisation des ressources et réduire les coûts.

Glossaire IA

Distributed Machine Learning

Parameter Server

AllReduce

Data Parallelism

Spark MLlib

TensorFlow Distributed

Horovod

Ray

Petastorm

Dask-ML

Kubeflow

MLflow

Feast

Vertex AI

SageMaker

Sharding

Elastic Training

Aucun résultat trouvé