Glossário IA
O dicionário completo da Inteligência Artificial
UCB1
Algoritmo UCB básico que utiliza a desigualdade de Hoeffding para calcular os limites de confiança, oferecendo um arrependimento logarítmico garantido no contexto de bandidos estacionários.
UCB1-Tuned
Variante aprimorada do UCB1 que adapta dinamicamente os limites de confiança com base na variância observada das recompensas para otimizar a exploração.
UCB-V
Algoritmo UCB que utiliza explicitamente as estimativas de variância para construir limites de confiança mais precisos, particularmente eficaz com recompensas de alta variância.
UCB-alpha
Generalização paramétrica do UCB1 onde o parâmetro alfa controla a agressividade da exploração, permitindo ajustar o compromisso exploração-explotação conforme necessário.
MOSS (Minimax Optimal Strategy)
Algoritmo UCB ótimo no sentido minimax que atinge o arrependimento mínimo no pior caso, adaptando os limites de confiança ao número total de iterações restantes.
KL-UCB
Variante do UCB que utiliza a divergência de Kullback-Leibler para construir limites de confiança assintoticamente ótimos, particularmente adequada para recompensas limitadas.
Arrependimento logarítmico
Medida de desempenho dos algoritmos UCB onde o arrependimento acumulado cresce logaritmicamente com o tempo, caracterizando a otimalidade em problemas de bandidos estacionários.
Otimismo diante da incerteza
Princípio filosófico e matemático que guia os algoritmos UCB, postulando que ações incertas merecem ser exploradas porque podem ser ótimas.
Índice de Confiança
Índice que quantifica o nível de certeza estatística na estimativa de uma ação, usado para ponderar a exploração em variantes avançadas dos algoritmos UCB.
Otimidade Assintótica
Propriedade teórica que garante que um algoritmo UCB atinge assintoticamente o menor limite de arrependimento possível, caracterizando sua eficiência a longo prazo.
UCB-Normal
Variante de UCB especificamente projetada para recompensas que seguem uma distribuição normal, explorando as propriedades exatas da distribuição gaussiana para limites ótimos.
UCB Eficiente
Família de algoritmos UCB que alcançam uma complexidade computacional ótima, mantendo as garantias teóricas de arrependimento logarítmico para problemas em larga escala.
Árvores de Confiança Superior (UCT)
Aplicação do princípio UCB a árvores de busca para tomada de decisão sequencial, fundamento de muitos algoritmos de jogo como o AlphaGo que utiliza Monte Carlo Tree Search.