Glosario IA
El diccionario completo de la Inteligencia Artificial
Proceso de Kiefer-Wolfowitz
Extensión del algoritmo de Robbins-Monro para la optimización, utilizando diferencias finitas ruidosas para estimar el gradiente y encontrar los extremos de una función.
Método de Newton estocástico
Variante estocástica del método de Newton donde la matriz Hessiana se estima a partir de observaciones ruidosas, acelerando la convergencia hacia el óptimo.
Gradiente estocástico (SGD)
Algoritmo de optimización que actualiza los parámetros utilizando estimaciones ruidosas del gradiente calculadas sobre subconjuntos de datos.
Paso adaptativo
Estrategia de ajuste dinámico del tamaño del paso en los algoritmos de aproximación estocástica para optimizar la velocidad de convergencia y la estabilidad.
Condición de Robbins-Monro
Condiciones matemáticas sobre la secuencia de pasos (suma infinita pero suma de los cuadrados finita) que garantizan la convergencia del algoritmo de aproximación estocástica.
Sesgo y varianza en aproximación estocástica
Análisis del compromiso entre el sesgo de estimación debido al paso no nulo y la varianza debida al ruido en las observaciones para optimizar el rendimiento.
Método SPSA
Simultaneous Perturbation Stochastic Approximation, técnica eficiente donde el gradiente se estima perturbando simultáneamente todos los parámetros con solo dos mediciones de la función.
Ruido de medición
Error aleatorio que afecta las observaciones de la función objetivo, modelado generalmente como un ruido blanco aditivo con propiedades estadísticas conocidas.
Tasa de aprendizaje decreciente
Secuencia de pasos decreciente, típicamente de la forma a/(n+b) donde n es la iteración, asegurando la convergencia mientras se mantiene una tasa de aprendizaje efectiva.
Gradiente de mini-lote
Variante intermedia entre el gradiente por lotes (batch gradient) y el gradiente estocástico, que utiliza pequeños lotes de observaciones para reducir la varianza de la estimación del gradiente.
Momento en aproximación estocástica
Técnica que acelera la convergencia añadiendo una inercia basada en los gradientes previos, atenuando las oscilaciones en las direcciones de fuerte curvatura.
Algoritmo ADAM
Adaptive Moment Estimation, método de optimización que combina el momento y tasas de aprendizaje adaptativas por parámetro, particularmente eficaz en aprendizaje profundo.
Condiciones de Lipschitz
Hipótesis de regularidad sobre la función objetivo que garantiza una cota en la variación del gradiente, esencial para probar la convergencia de los algoritmos estocásticos.