Glosario IA
El diccionario completo de la Inteligencia Artificial
Algoritmo de Bandido
Familia de algoritmos de aprendizaje en línea donde el agente debe seleccionar secuencialmente acciones con recompensas inciertas para maximizar la ganancia acumulada.
Seguir al Líder (FTL)
Estrategia de optimización en línea donde el algoritmo elige en cada etapa la acción que habría sido óptima sobre los datos pasados observados hasta ese punto.
Seguir al Líder Regularizado (FTRL)
Variante de FTL que incorpora una regularización para estabilizar las decisiones secuenciales y garantizar mejores límites de arrepentimiento en entornos adversarios.
Descenso de Gradiente en Línea
Algoritmo de optimización que actualiza los parámetros del modelo en la dirección opuesta al gradiente de la función de pérdida calculada en cada nueva observación.
Actualización de Pesos Multiplicativos
Método de optimización en línea que ajusta exponencialmente los pesos asignados a los expertos según su desempeño pasado para combinar sus predicciones.
Consejo de Expertos
Marco de aprendizaje en línea donde el algoritmo debe agregar las recomendaciones de varios expertos para minimizar el arrepentimiento respecto al mejor experto.
Optimización Convexa en Línea
Teoría matemática que estudia la optimización secuencial de funciones convexas donde las funciones de pérdida se revelan progresivamente a lo largo del tiempo.
Aprendizaje en Línea Adversario
Escenario de aprendizaje en línea donde los datos son generados por un adversario potencialmente malicioso que busca maximizar el arrepentimiento del algoritmo.
Compromiso Exploración-Explotación
Dilema fundamental en aprendizaje en línea entre explorar nuevas acciones para descubrir sus recompensas y explotar las acciones conocidas como de buen rendimiento.
Descenso de Espejo en Línea
Generalización del descenso de gradiente que utiliza una función de Bregman para proyectar las actualizaciones en un espacio restringido, ofreciendo una flexibilidad superior en optimización.
Aprendizaje con Información Parcial
Paradigma donde el algoritmo solo recibe información sobre la acción elegida (bandido) en lugar de todas las acciones posibles (información completa).
Tasa de Aprendizaje Adaptativa
Mecanismo que ajusta dinámicamente el paso de aprendizaje según las propiedades locales del paisaje de pérdida para optimizar la convergencia en entornos no estacionarios.
Algoritmo Hedge
Algoritmo de agregación de expertos que utiliza la actualización multiplicativa de pesos para garantizar un límite de arrepentimiento logarítmico respecto al mejor experto.
Límite de Arrepentimiento
Límite superior teórico sobre el arrepentimiento acumulado que un algoritmo puede sufrir, permitiendo comparar y garantizar el rendimiento de métodos de optimización en línea.
Aprendizaje en Línea Estocástico
Marco de aprendizaje donde los datos siguen una distribución de probabilidad fija y desconocida, permitiendo garantías de rendimiento en expectativa en lugar del peor caso.