Algoritmos UCB - Glosario IA

📖

términos

UCB1

Algoritmo UCB básico que utiliza la desigualdad de Hoeffding para calcular los límites de confianza, ofreciendo un arrepentimiento logarítmico garantizado en el marco de los bandidos estacionarios.

📖

términos

UCB1-Tuned

Variante mejorada de UCB1 que adapta dinámicamente los límites de confianza en función de la varianza observada de las recompensas para optimizar la exploración.

📖

términos

UCB-V

Algoritmo UCB que utiliza explícitamente las estimaciones de varianza para construir límites de confianza más precisos, particularmente eficaz con recompensas de alta varianza.

📖

términos

UCB-alpha

Generalización paramétrica de UCB1 donde el parámetro alfa controla la agresividad de la exploración, permitiendo ajustar el compromiso exploración-explotación según las necesidades.

📖

términos

MOSS (Minimax Optimal Strategy)

Algoritmo UCB óptimo en el sentido minimax que alcanza el arrepentimiento mínimo en el peor caso adaptando los límites de confianza al número total de iteraciones restantes.

📖

términos

KL-UCB

Variante de UCB que utiliza la divergencia de Kullback-Leibler para construir límites de confianza asintóticamente óptimos, particularmente adecuada para recompensas acotadas.

📖

términos

Arrepentimiento logarítmico

Medida de rendimiento de los algoritmos UCB donde el arrepentimiento acumulado crece logarítmicamente con el tiempo, caracterizando la optimalidad en los problemas de bandidos estacionarios.

📖

términos

Optimismo frente a la incertidumbre

Principio filosófico y matemático que guía los algoritmos UCB, postulando que las acciones inciertas merecen ser exploradas porque podrían ser óptimas.

📖

términos

Índice de Confianza

Índice que cuantifica el nivel de certeza estadística en la estimación de una acción, utilizado para ponderar la exploración en las variantes avanzadas de los algoritmos UCB.

📖

términos

Optimalidad Asintótica

Propiedad teórica que garantiza que un algoritmo UCB alcanza asintóticamente la cota de arrepentimiento más baja posible, caracterizando su eficiencia a largo plazo.

📖

términos

UCB-Normal

Variante de UCB específicamente diseñada para recompensas que siguen una distribución normal, explotando las propiedades exactas de la distribución gaussiana para cotas óptimas.

📖

términos

UCB Eficiente

Familia de algoritmos UCB que alcanzan una complejidad computacional óptima manteniendo las garantías teóricas de arrepentimiento logarítmico para problemas a gran escala.

📖

términos

Árboles de Confianza Superior (UCT)

Aplicación del principio UCB a los árboles de búsqueda para la toma de decisiones secuencial, base de muchos algoritmos de juego como AlphaGo que utilizan la Búsqueda en Árbol Monte Carlo.

Glosario IA

UCB1

UCB1-Tuned

UCB-V

UCB-alpha

MOSS (Minimax Optimal Strategy)

KL-UCB

Arrepentimiento logarítmico

Optimismo frente a la incertidumbre

Índice de Confianza

Optimalidad Asintótica

UCB-Normal

UCB Eficiente

Árboles de Confianza Superior (UCT)

No se encontraron resultados