KI-Glossar
Das vollständige Wörterbuch der Künstlichen Intelligenz
Processus de Kiefer-Wolfowitz
Extension de l'algorithme de Robbins-Monro pour l'optimisation, utilisant des différences finies bruitées pour estimer le gradient et trouver les extrema d'une fonction.
Méthode de Newton stochastique
Variante stochastique de la méthode de Newton où la matrice Hessienne est estimée à partir d'observations bruitées, accélérant la convergence vers l'optimum.
Gradient stochastique (SGD)
Algorithme d'optimisation qui met à jour les paramètres en utilisant des estimations bruitées du gradient calculées sur des sous-ensembles de données.
Pas adaptatif
Stratégie d'ajustement dynamique de la taille du pas dans les algorithmes d'approximation stochastique pour optimiser la vitesse de convergence et la stabilité.
Condition de Robbins-Monro
Conditions mathématiques sur la séquence de pas (somme infinie mais somme des carrés finie) garantissant la convergence de l'algorithme d'approximation stochastique.
Biais et variance en approximation stochastique
Analyse du compromis entre le biais d'estimation dû au pas non nul et la variance due au bruit dans les observations pour optimiser la performance.
Méthode SPSA
Simultaneous Perturbation Stochastic Approximation, technique efficace où le gradient est estimé en perturbant simultanément tous les paramètres avec seulement deux mesures de la fonction.
Bruit de mesure
Erreur aléatoire affectant les observations de la fonction objectif, modélisée généralement comme un bruit blanc additif avec des propriétés statistiques connues.
Taux d'apprentissage décroissant
Séquence de pas décroissante typiquement de forme a/(n+b) où n est l'itération, assurant la convergence tout en maintenant un taux d'apprentissage efficace.
Mini-batch gradient
Variante intermédiaire entre gradient batch et gradient stochastique utilisant de petits lots d'observations pour réduire la variance de l'estimation du gradient.
Momentum en approximation stochastique
Technique accélérant la convergence en ajoutant une inertie basée sur les gradients précédents, atténuant les oscillations dans les directions de forte courbure.
Algorithme ADAM
Adaptive Moment Estimation, méthode d'optimisation combinant momentum et taux d'apprentissage adaptatifs par paramètre, particulièrement efficace en apprentissage profond.
Conditions de Lipschitz
Hypothèse de régularité sur la fonction objectif garantissant une borne sur la variation du gradient, essentielle pour prouver la convergence des algorithmes stochastiques.