Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Distributed Machine Learning
Paradigme d'entraînement de modèles ML où les calculs sont répartis sur plusieurs machines pour traiter des datasets massifs et réduire le temps d'entraînement.
Parameter Server
Architecture distribuée centralisant les paramètres du modèle sur des serveurs dédiés, permettant aux workers de mettre à jour et synchroniser les gradients de manière asynchrone.
AllReduce
Algorithme de communication collective permettant la réduction et la diffusion synchronisée des gradients entre tous les nœuds dans un environnement d'entraînement distribué.
Data Parallelism
Stratégie de parallélisation où les données sont partitionnées sur plusieurs machines, chacune entraînant une copie identique du modèle avec des batches différents.
Spark MLlib
Bibliothèque d'apprentissage automatique scalable construite sur Apache Spark, offrant des implémentations distribuées d'algorithmes ML classiques.
TensorFlow Distributed
Framework d'entraînement distribué de TensorFlow utilisant des stratégies comme MirroredStrategy et MultiWorkerMirroredStrategy pour scaler l'entraînement.
Horovod
Framework open-source développé par Uber utilisant l'algorithme AllReduce via MPI pour l'entraînement distribué efficace de modèles deep learning.
Ray
Framework de calcul distribué optimisé pour le machine learning et l'IA, fournissant des primitives pour l'exécution parallèle et la gestion d'état à grande échelle.
Petastorm
Bibliothèque permettant l'accès efficace aux datasets de grande taille stockés dans Apache Parquet pour l'entraînement distribué de modèles deep learning.
Dask-ML
Extension de Dask intégrant des algorithmes d'apprentissage automatique scalable et des outils de parallélisation pour les workflows ML sur des clusters.
Kubeflow
Plateforme open-source basée sur Kubernetes pour déployer et gérer des pipelines ML complexes à grande échelle avec orchestration conteneurisée.
MLflow
Plateforme open source pour gérer le cycle de vie complet des projets ML, incluant le tracking, la gestion des modèles et la reproductibilité à l'échelle.
Feast
Feature store open source fournissant une couche d'abstraction pour la gestion, le versioning et la serving de features à grande échelle.
Vertex AI
Plateforme unified de Google Cloud pour l'entraînement, le déploiement et la gestion de modèles ML à l'échelle avec AutoML et MLOps intégré.
SageMaker
Service AWS entièrement géré pour l'entraînement distribué, le déploiement et la monitoring de modèles ML avec optimisation automatique des ressources.
Sharding
Partitionnement horizontal des données ou du modèle sur plusieurs nœuds pour permettre le traitement parallèle et réduire la charge par machine.
Elastic Training
Capacité d'adapter dynamiquement le nombre de workers pendant l'entraînement pour optimiser l'utilisation des ressources et réduire les coûts.