Glosario IA
El diccionario completo de la Inteligencia Artificial
Tasa de aprendizaje adaptativa
Mecanismo de ajuste automático de la tasa de aprendizaje durante el entrenamiento, modificando la magnitud de las actualizaciones de los parámetros en función de las características locales del paisaje de la función de costo.
Suma histórica de los cuadrados de los gradientes
Acumulación exponencial de los cuadrados de los gradientes pasados utilizada en Adagrad para normalizar las actualizaciones de los parámetros, penalizando los gradientes altos frecuentes y favoreciendo las direcciones con gradientes históricamente bajos.
Factor de escala diagonal
Matriz diagonal que precondiciona el gradiente en Adagrad, donde cada elemento representa la raíz cuadrada de la suma acumulada de los cuadrados de los gradientes para cada parámetro individual.
Función de costo convexa
Función objetivo donde cualquier línea recta entre dos puntos de la superficie se encuentra por encima de la superficie, garantizando la ausencia de mínimos locales y la convergencia global de los métodos de descenso de gradiente.
Norma del gradiente
Medida de la magnitud del vector gradiente, utilizada en Adagrad para determinar si un parámetro ha sufrido actualizaciones significativas históricamente y, por lo tanto, requiere un ajuste de tasa de aprendizaje adaptativo.
Esperanza del cuadrado del gradiente
Estimación estadística del promedio a largo plazo de los cuadrados de los gradientes, sirviendo de base para el cálculo de los factores de escala adaptativos en los optimizadores de la familia Adagrad.
Vector de parámetros
Colección de todas las variables optimizables de un modelo, actualizada iterativamente por Adagrad con tasas de aprendizaje adaptadas individualmente para cada componente del vector.
Condicionamiento mal planteado
Situación en la que las escalas de los gradientes en diferentes direcciones varían considerablemente, problema que Adagrad aborda específicamente adaptando dinámicamente la tasa de aprendizaje por dimensión.
Sesgo de corrección
Mecanismo en Adam y sus variantes que corrige la estimación sesgada inicial de los primeros y segundos momentos debido a la inicialización a cero de las medias móviles exponenciales.
Hiperparámetro épsilon
Pequeña constante añadida al denominador en Adagrad y sus variantes para asegurar la estabilidad numérica, evitando la división por cero cuando la suma de los cuadrados de los gradientes es muy baja.