Adagrad - Glosario IA

📖

términos

Tasa de aprendizaje adaptativa

Mecanismo de ajuste automático de la tasa de aprendizaje durante el entrenamiento, modificando la magnitud de las actualizaciones de los parámetros en función de las características locales del paisaje de la función de costo.

📖

términos

Suma histórica de los cuadrados de los gradientes

Acumulación exponencial de los cuadrados de los gradientes pasados utilizada en Adagrad para normalizar las actualizaciones de los parámetros, penalizando los gradientes altos frecuentes y favoreciendo las direcciones con gradientes históricamente bajos.

📖

términos

Factor de escala diagonal

Matriz diagonal que precondiciona el gradiente en Adagrad, donde cada elemento representa la raíz cuadrada de la suma acumulada de los cuadrados de los gradientes para cada parámetro individual.

📖

términos

Función de costo convexa

Función objetivo donde cualquier línea recta entre dos puntos de la superficie se encuentra por encima de la superficie, garantizando la ausencia de mínimos locales y la convergencia global de los métodos de descenso de gradiente.

📖

términos

Norma del gradiente

Medida de la magnitud del vector gradiente, utilizada en Adagrad para determinar si un parámetro ha sufrido actualizaciones significativas históricamente y, por lo tanto, requiere un ajuste de tasa de aprendizaje adaptativo.

📖

términos

Esperanza del cuadrado del gradiente

Estimación estadística del promedio a largo plazo de los cuadrados de los gradientes, sirviendo de base para el cálculo de los factores de escala adaptativos en los optimizadores de la familia Adagrad.

📖

términos

Vector de parámetros

Colección de todas las variables optimizables de un modelo, actualizada iterativamente por Adagrad con tasas de aprendizaje adaptadas individualmente para cada componente del vector.

📖

términos

Condicionamiento mal planteado

Situación en la que las escalas de los gradientes en diferentes direcciones varían considerablemente, problema que Adagrad aborda específicamente adaptando dinámicamente la tasa de aprendizaje por dimensión.

📖

términos

Sesgo de corrección

Mecanismo en Adam y sus variantes que corrige la estimación sesgada inicial de los primeros y segundos momentos debido a la inicialización a cero de las medias móviles exponenciales.

📖

términos

Hiperparámetro épsilon

Pequeña constante añadida al denominador en Adagrad y sus variantes para asegurar la estabilidad numérica, evitando la división por cero cuando la suma de los cuadrados de los gradientes es muy baja.

Glosario IA

Tasa de aprendizaje adaptativa

Suma histórica de los cuadrados de los gradientes

Factor de escala diagonal

Función de costo convexa

Norma del gradiente

Esperanza del cuadrado del gradiente

Vector de parámetros

Condicionamiento mal planteado

Sesgo de corrección

Hiperparámetro épsilon

No se encontraron resultados