AI Glossary
The complete dictionary of Artificial Intelligence
Distributed SGD
Variante de la descente de gradient stochastique où les calculs de gradients et les mises à jour de paramètres sont répartis sur plusieurs machines ou processeurs pour accélérer l'entraînement de modèles à grande échelle.
Synchronous SGD
Approche où tous les workers doivent synchroniser leurs gradients à chaque itération, garantissant la cohérence du modèle mais pouvant être limitée par le nœud le plus lent (straggler).
Asynchronous SGD
Méthode où les workers mettent à jour les paramètres du modèle indépendamment sans attente de synchronisation, améliorant le débit mais pouvant introduire des gradients retardés.
Hogwild!
Algorithme de SGD parallèle sans verrouillage autorisant les accès concurrents aux paramètres, efficace pour les modèles creux où les conflits d'écriture sont rares.
Local SGD
Variante où les workers effectuent plusieurs pas de SGD locaux sur leurs données avant de communiquer pour la synchronisation, réduisant la surcharge de communication.
Straggler Problem
Phénomène où certains nœuds plus lents ralentissent l'ensemble du processus d'entraînement distribué synchronisé, particulièrement critique dans les systèmes à grande échelle.
Elastic Averaging SGD
Algorithme combinant descente de gradient locale avec une force élastique maintenant les paramètres locaux proches d'un centre de masse partagé entre workers.
Byzantine-Resilient SGD
Variantes robustes de SGD distribué capable de tolérer des workers défaillants ou malveillants qui envoient des gradients incorrects ou arbitraires.
Quantized SGD
Approche réduisant la précision numérique des gradients avant transmission, utilisant typiquement 1-8 bits par paramètre pour minimiser le trafic réseau.