Cơ bản
Optimisation Stochastique et SGD
Techniques de descente de gradient pour les fonctions bruitées et les jeux de données massifs.
📝 Contenu du Prompt
Comparez la descente de gradient standard (BGD) avec la descente de gradient stochastique (SGD) dans le contexte de l'apprentissage automatique. Analysez mathématiquement les compromis entre le bruit de l'estimation du gradient et la vitesse de convergence. Proposez des stratégies avancées pour améliorer la convergence de SGD, telles que l'utilisation de Momentum, Nesterov, ou l'adaptation des taux d'apprentissage (AdaGrad, RMSprop, Adam). Discutez des problèmes potentiels comme les points selles et la disparition du gradient.