Optimisation Stochastique et SGD

#SGD #Apprentissage profond #Taux d'apprentissage #Mini-batch

Techniques de descente de gradient pour les fonctions bruitées et les jeux de données massifs.

📝 Contenu du Prompt

Comparez la descente de gradient standard (BGD) avec la descente de gradient stochastique (SGD) dans le contexte de l'apprentissage automatique. Analysez mathématiquement les compromis entre le bruit de l'estimation du gradient et la vitesse de convergence. Proposez des stratégies avancées pour améliorer la convergence de SGD, telles que l'utilisation de Momentum, Nesterov, ou l'adaptation des taux d'apprentissage (AdaGrad, RMSprop, Adam). Discutez des problèmes potentiels comme les points selles et la disparition du gradient.

Entrepreneurship

Optimisation Stochastique et SGD