Glosario IA
El diccionario completo de la Inteligencia Artificial
Momento clásico
Técnica de optimización que acumula los gradientes pasados con un factor de decaimiento para crear inercia en las actualizaciones de peso. Este enfoque permite acelerar la convergencia en direcciones constantes mientras amortigua las oscilaciones.
Factor de momento (beta)
Parámetro hiperparamétrico que controla la influencia de los gradientes anteriores en la actualización actual, típicamente fijado entre 0.9 y 0.99. Un valor más alto aumenta la inercia y estabiliza la trayectoria de optimización en valles estrechos.
Velocidad de gradiente
Vector que acumula los gradientes ponderados de las iteraciones anteriores, representando la dirección y la velocidad de descenso en el espacio de parámetros. La velocidad se actualiza en cada iteración mediante una combinación lineal del gradiente actual y la velocidad anterior.
Inercia en la optimización
Fenómeno físico análogo donde las actualizaciones de parámetros conservan parte de su impulso anterior, permitiendo superar mesetas y mínimos locales poco profundos. La inercia es particularmente efectiva para navegar en paisajes de pérdida complejos y no convexos.
Oscilaciones amortiguadas
Reducción progresiva de las fluctuaciones alrededor de la dirección óptima de descenso gracias a la acumulación de momento en direcciones consistentes. Este mecanismo estabiliza particularmente la optimización en valles estrechos donde los gradientes están fuertemente correlacionados.
Momento adaptativo
Extensión del momento donde el factor de inercia se ajusta dinámicamente en función de las características locales del paisaje de optimización. Esta adaptación permite un equilibrio óptimo entre exploración y explotación según la geometría de la superficie de pérdida.
Historial de gradientes
Memoria de los gradientes anteriores utilizada para calcular la dirección de actualización actual, permitiendo capturar las tendencias a largo plazo del descenso. El historial ponderado exponencialmente prioriza los gradientes recientes mientras conserva la información de iteraciones anteriores.
Masa virtual
Concepto análogo que representa la resistencia al cambio en la trayectoria de optimización, controlada por el factor de momento. Una masa virtual elevada produce movimientos más fluidos y menos sensibles a los ruidos de gradiente instantáneos.
Fuerza de fricción
Mecanismo de regularización implícito en el momentum que contrarresta la aceleración para evitar la divergencia, generalmente implementado a través del factor (1-beta). Esta fuerza asegura la estabilidad numérica y garantiza la convergencia hacia mínimos significativos.
Momentum estocástico
Aplicación del momentum en la optimización estocástica donde los gradientes ruidosos se promedian temporalmente para reducir la varianza de las estimaciones. Esta técnica es particularmente efectiva en el entrenamiento con grandes conjuntos de datos usando mini-batches.
Momentum por mini-batch
Estrategia donde la velocidad se actualiza después de cada mini-batch en lugar de después de cada muestra individual, ofreciendo un compromiso entre estabilidad y costo computacional. Este enfoque permite una mejor generalización manteniendo los beneficios del momentum.
Decaimiento del momentum
Técnica de ajuste del factor de momentum durante el entrenamiento, típicamente reduciéndolo progresivamente para refinar la convergencia final. Esta estrategia combina exploración rápida al inicio del entrenamiento y precisión al final de la optimización.
Momentum cíclico
Variación periódica del factor de momentum sincronizada con los ciclos de aprendizaje para escapar de los mínimos locales y explorar el espacio de soluciones. Este enfoque a menudo se combina con tasas de aprendizaje cíclicas para una optimización global mejorada.
Warm-up del momentum
Fase inicial de entrenamiento donde el factor de momentum se incrementa progresivamente desde cero para evitar inestabilidades en las primeras iteraciones. Esta técnica permite una estabilización gradual de la optimización en redes profundas.