Métodos de Tasa de Aprendizaje Adaptativa

📖

términos

RMSprop

Método de optimización adaptativo que utiliza un promedio móvil ponderado del cuadrado de los gradientes para normalizar la tasa de aprendizaje, previniendo así las oscilaciones y acelerando la convergencia.

📖

términos

AdaGrad

Algoritmo de optimización que adapta la tasa de aprendizaje de cada parámetro en función de la suma histórica de los cuadrados de los gradientes, permitiendo actualizaciones más grandes para los parámetros poco frecuentes.

📖

términos

AdaDelta

Extensión de AdaGrad que resuelve el problema de la disminución monótona de la tasa de aprendizaje utilizando una ventana deslizante de gradientes pasados en lugar de la suma acumulada.

📖

términos

Weight Decay

Método de regularización que penaliza los pesos grandes añadiendo un término L2 a la función de pérdida, ayudando a prevenir el sobreajuste y mejorando la generalización.

📖

términos

Parámetros Beta (Adam)

Hiperparámetros β1 y β2 que controlan respectivamente las tasas de amortiguación exponencial para el promedio móvil del gradiente (momento de primer orden) y su varianza (momento de segundo orden).

📖

términos

Corrección de Sesgo

Mecanismo en Adam que corrige el sesgo inicial de las estimaciones de momentos hacia cero, garantizando estimaciones no sesgadas, particularmente importantes en los primeros pasos de entrenamiento.

📖

términos

Promedio Móvil Exponencial (EMA)

Técnica de suavizado que asigna más peso a las observaciones recientes, utilizada en optimizadores adaptativos para estimar los momentos de los gradientes.

📖

términos

YOGI

Variante de Adam que utiliza un controlador de varianza adaptativo para estabilizar el entrenamiento, particularmente eficaz cuando los datos presentan distribuciones no estacionarias o gradientes ruidosos.

📖

términos

Tasas de aprendizaje cíclicas

Estrategia que varía la tasa de aprendizaje de forma cíclica entre límites mínimos y máximos, permitiendo que el modelo escape de mínimos locales y explore diferentes cuencas de atracción.

Glosario IA

RMSprop

AdaGrad

AdaDelta

Weight Decay

Parámetros Beta (Adam)

Corrección de Sesgo

Promedio Móvil Exponencial (EMA)

YOGI

Tasas de aprendizaje cíclicas

No se encontraron resultados