Glosario IA
El diccionario completo de la Inteligencia Artificial
RMSprop
Método de optimización adaptativo que utiliza un promedio móvil ponderado del cuadrado de los gradientes para normalizar la tasa de aprendizaje, previniendo así las oscilaciones y acelerando la convergencia.
AdaGrad
Algoritmo de optimización que adapta la tasa de aprendizaje de cada parámetro en función de la suma histórica de los cuadrados de los gradientes, permitiendo actualizaciones más grandes para los parámetros poco frecuentes.
AdaDelta
Extensión de AdaGrad que resuelve el problema de la disminución monótona de la tasa de aprendizaje utilizando una ventana deslizante de gradientes pasados en lugar de la suma acumulada.
Weight Decay
Método de regularización que penaliza los pesos grandes añadiendo un término L2 a la función de pérdida, ayudando a prevenir el sobreajuste y mejorando la generalización.
Parámetros Beta (Adam)
Hiperparámetros β1 y β2 que controlan respectivamente las tasas de amortiguación exponencial para el promedio móvil del gradiente (momento de primer orden) y su varianza (momento de segundo orden).
Corrección de Sesgo
Mecanismo en Adam que corrige el sesgo inicial de las estimaciones de momentos hacia cero, garantizando estimaciones no sesgadas, particularmente importantes en los primeros pasos de entrenamiento.
Promedio Móvil Exponencial (EMA)
Técnica de suavizado que asigna más peso a las observaciones recientes, utilizada en optimizadores adaptativos para estimar los momentos de los gradientes.
YOGI
Variante de Adam que utiliza un controlador de varianza adaptativo para estabilizar el entrenamiento, particularmente eficaz cuando los datos presentan distribuciones no estacionarias o gradientes ruidosos.
Tasas de aprendizaje cíclicas
Estrategia que varía la tasa de aprendizaje de forma cíclica entre límites mínimos y máximos, permitiendo que el modelo escape de mínimos locales y explore diferentes cuencas de atracción.