Glosario IA
El diccionario completo de la Inteligencia Artificial
Acumulación Histórica
Proceso que consiste en almacenar y acumular la información de los gradientes pasados para adaptar dinámicamente las tasas de aprendizaje. En AdaDelta, esta acumulación está limitada a una ventana deslizante para evitar el decaimiento infinito de la tasa de aprendizaje.
Factor de Decaimiento
Parámetro (típicamente entre 0.9 y 0.999) que controla la velocidad a la que la influencia de los gradientes pasados disminuye exponencialmente. Este factor determina el tamaño efectivo de la ventana deslizante en algoritmos adaptativos como AdaDelta.
Normalización del Gradiente
Proceso de escalado de los gradientes utilizando estadísticas históricas para estabilizar el entrenamiento. AdaDelta normaliza los gradientes dividiéndolos por la raíz cuadrada de la media móvil de sus cuadrados.
Unidades Consistentes
Principio fundamental de AdaDelta donde las actualizaciones tienen las mismas unidades que los parámetros, eliminando la necesidad de una tasa de aprendizaje global. Este enfoque utiliza la relación entre las medias móviles de las actualizaciones pasadas y los gradientes actuales.
Escalado de Parámetros
Proceso de ajuste dinámico de la magnitud de las actualizaciones para cada parámetro en función de su historial de gradientes. AdaDelta utiliza la media móvil de las actualizaciones pasadas para determinar esta escala adaptativa.
Condiciones de Convergencia
Criterios matemáticos que garantizan que un algoritmo de optimización alcanzará un óptimo local o global. Los algoritmos adaptativos como AdaDelta modifican estas condiciones al cambiar dinámicamente la dirección y la magnitud de los pasos de optimización.
Estado de Optimización
Información adicional almacenada por los algoritmos adaptativos para calcular futuras actualizaciones. AdaDelta mantiene dos estados: la media móvil de los cuadrados de los gradientes y la de los cuadrados de las actualizaciones.
Hiperparámetro Rho
Parámetro único de AdaDelta (generalmente fijado en 0.95) que controla la velocidad de decaimiento exponencial de la ventana deslizante. Este parámetro determina el equilibrio entre la información reciente e histórica en los cálculos de actualización.