Second-order Stochastic Methods

📖

Begriffe

Stochastic Newton Method

Algorithme d'optimisation qui approxime la matrice Hessienne de manière stochastique pour accélérer la convergence, combinant l'efficacité computationnelle du SGD avec les propriétés de convergence d'ordre deux.

📖

Begriffe

L-BFGS (Limited-memory BFGS)

Variante quasi-Newton qui approxime la matrice Hessienne inverse en utilisant uniquement les dernières m itérations, réduisant drastiquement la complexité mémoire tout en conservant les avantages d'ordre deux.

📖

Begriffe

K-FAC (Kronecker-Factored Approximate Curvature)

Méthode d'optimisation second ordre qui approxime la matrice de Fisher par un produit de Kronecker de matrices plus petites, permettant des calculs efficaces pour les réseaux de neurones profonds.

📖

Begriffe

Natural Gradient Descent

Algorithme d'optimisation qui utilise la métrique de l'information de Fisher comme préconditionneur, garantissant une convergence invariante aux reparamétrisations du modèle.

📖

Begriffe

AdaHessian

Optimiseur adaptatif qui estime la diagonale de la matrice Hessienne en utilisant une approximation Hutchinson, adaptant le taux d'apprentissage pour chaque paramètre basé sur la courbure locale.

📖

Begriffe

Shampoo Optimizer

Optimiseur second ordre qui préconditionne les gradients en utilisant des approximations de matrices de Kronecker pour les tenseurs de poids, adaptatif à la structure des paramètres du modèle.

📖

Begriffe

LAMB (Layer-wise Adaptive Moments optimizer)

Optimiseur adaptatif qui ajuste le taux d'apprentissage par couche en utilisant la norme des poids et des gradients, combinant les avantages d'Adam avec une adaptation spécifique à la structure du réseau.

📖

Begriffe

Sophia Optimizer

Méthode d'optimisation second ordre qui combine des estimations de Hessienne diagonale avec un contrôle d'élan stochastique, adaptant dynamiquement la direction de mise à jour selon la courbure locale.

📖

Begriffe

Sub-sampled Newton Method

Variante de Newton qui utilise des sous-ensembles de données pour estimer le gradient et la Hessienne, réduisant la complexité computationnelle tout en préservant les propriétés de convergence quadratique locale.

📖

Begriffe

Stochastic Quasi-Newton

Classe d'algorithmes qui maintiennent une approximation de l'inverse de la Hessienne mise à jour de manière stochastique, équilibrant la complexité computationnelle et le taux de convergence.

📖

Begriffe

Diagonal Gauss-Newton

Approximation de la Hessienne qui utilise seulement les éléments diagonaux de la matrice de Gauss-Newton, réduisant significativement les coûts computationnels pour les problèmes de grande dimension.

📖

Begriffe

TNSR (Tensor Normalized Second-order Regularization)

Méthode qui applique une régularisation second ordre en normalisant les tenseurs de gradients selon les estimations de courbure, stabilisant l'entraînement des réseaux profonds.

📖

Begriffe

Online Newton Step

Algorithme d'optimisation en ligne qui maintient une approximation de la Hessienne inverse pour adapter dynamiquement les mises à jour des paramètres selon les observations séquentielles.

📖

Begriffe

Stochastic Recursive Gradient Algorithm

Méthode qui utilise des techniques de récursivité pour approximer efficacement les informations de second ordre tout en maintenant la complexité linéaire du SGD classique.

KI-Glossar

Stochastic Newton Method

L-BFGS (Limited-memory BFGS)

K-FAC (Kronecker-Factored Approximate Curvature)

Natural Gradient Descent

AdaHessian

Shampoo Optimizer

LAMB (Layer-wise Adaptive Moments optimizer)

Sophia Optimizer

Sub-sampled Newton Method

Stochastic Quasi-Newton

Diagonal Gauss-Newton

TNSR (Tensor Normalized Second-order Regularization)

Online Newton Step

Stochastic Recursive Gradient Algorithm

Keine Ergebnisse gefunden