AdaDelta - Glosario IA

📖

términos

Acumulación Histórica

Proceso que consiste en almacenar y acumular la información de los gradientes pasados para adaptar dinámicamente las tasas de aprendizaje. En AdaDelta, esta acumulación está limitada a una ventana deslizante para evitar el decaimiento infinito de la tasa de aprendizaje.

📖

términos

Factor de Decaimiento

Parámetro (típicamente entre 0.9 y 0.999) que controla la velocidad a la que la influencia de los gradientes pasados disminuye exponencialmente. Este factor determina el tamaño efectivo de la ventana deslizante en algoritmos adaptativos como AdaDelta.

📖

términos

Normalización del Gradiente

Proceso de escalado de los gradientes utilizando estadísticas históricas para estabilizar el entrenamiento. AdaDelta normaliza los gradientes dividiéndolos por la raíz cuadrada de la media móvil de sus cuadrados.

📖

términos

Unidades Consistentes

Principio fundamental de AdaDelta donde las actualizaciones tienen las mismas unidades que los parámetros, eliminando la necesidad de una tasa de aprendizaje global. Este enfoque utiliza la relación entre las medias móviles de las actualizaciones pasadas y los gradientes actuales.

📖

términos

Escalado de Parámetros

Proceso de ajuste dinámico de la magnitud de las actualizaciones para cada parámetro en función de su historial de gradientes. AdaDelta utiliza la media móvil de las actualizaciones pasadas para determinar esta escala adaptativa.

📖

términos

Condiciones de Convergencia

Criterios matemáticos que garantizan que un algoritmo de optimización alcanzará un óptimo local o global. Los algoritmos adaptativos como AdaDelta modifican estas condiciones al cambiar dinámicamente la dirección y la magnitud de los pasos de optimización.

📖

términos

Estado de Optimización

Información adicional almacenada por los algoritmos adaptativos para calcular futuras actualizaciones. AdaDelta mantiene dos estados: la media móvil de los cuadrados de los gradientes y la de los cuadrados de las actualizaciones.

📖

términos

Hiperparámetro Rho

Parámetro único de AdaDelta (generalmente fijado en 0.95) que controla la velocidad de decaimiento exponencial de la ventana deslizante. Este parámetro determina el equilibrio entre la información reciente e histórica en los cálculos de actualización.

Glosario IA

Acumulación Histórica

Factor de Decaimiento

Normalización del Gradiente

Unidades Consistentes

Escalado de Parámetros

Condiciones de Convergencia

Estado de Optimización

Hiperparámetro Rho

No se encontraron resultados