Glosario IA
El diccionario completo de la Inteligencia Artificial
UCB1
Algoritmo UCB básico que utiliza la desigualdad de Hoeffding para calcular los límites de confianza, ofreciendo un arrepentimiento logarítmico garantizado en el marco de los bandidos estacionarios.
UCB1-Tuned
Variante mejorada de UCB1 que adapta dinámicamente los límites de confianza en función de la varianza observada de las recompensas para optimizar la exploración.
UCB-V
Algoritmo UCB que utiliza explícitamente las estimaciones de varianza para construir límites de confianza más precisos, particularmente eficaz con recompensas de alta varianza.
UCB-alpha
Generalización paramétrica de UCB1 donde el parámetro alfa controla la agresividad de la exploración, permitiendo ajustar el compromiso exploración-explotación según las necesidades.
MOSS (Minimax Optimal Strategy)
Algoritmo UCB óptimo en el sentido minimax que alcanza el arrepentimiento mínimo en el peor caso adaptando los límites de confianza al número total de iteraciones restantes.
KL-UCB
Variante de UCB que utiliza la divergencia de Kullback-Leibler para construir límites de confianza asintóticamente óptimos, particularmente adecuada para recompensas acotadas.
Arrepentimiento logarítmico
Medida de rendimiento de los algoritmos UCB donde el arrepentimiento acumulado crece logarítmicamente con el tiempo, caracterizando la optimalidad en los problemas de bandidos estacionarios.
Optimismo frente a la incertidumbre
Principio filosófico y matemático que guía los algoritmos UCB, postulando que las acciones inciertas merecen ser exploradas porque podrían ser óptimas.
Índice de Confianza
Índice que cuantifica el nivel de certeza estadística en la estimación de una acción, utilizado para ponderar la exploración en las variantes avanzadas de los algoritmos UCB.
Optimalidad Asintótica
Propiedad teórica que garantiza que un algoritmo UCB alcanza asintóticamente la cota de arrepentimiento más baja posible, caracterizando su eficiencia a largo plazo.
UCB-Normal
Variante de UCB específicamente diseñada para recompensas que siguen una distribución normal, explotando las propiedades exactas de la distribución gaussiana para cotas óptimas.
UCB Eficiente
Familia de algoritmos UCB que alcanzan una complejidad computacional óptima manteniendo las garantías teóricas de arrepentimiento logarítmico para problemas a gran escala.
Árboles de Confianza Superior (UCT)
Aplicación del principio UCB a los árboles de búsqueda para la toma de decisiones secuencial, base de muchos algoritmos de juego como AlphaGo que utilizan la Búsqueda en Árbol Monte Carlo.