Algoritmos UCB - Glossário IA

📖

termos

UCB1

Algoritmo UCB básico que utiliza a desigualdade de Hoeffding para calcular os limites de confiança, oferecendo um arrependimento logarítmico garantido no contexto de bandidos estacionários.

📖

termos

UCB1-Tuned

Variante aprimorada do UCB1 que adapta dinamicamente os limites de confiança com base na variância observada das recompensas para otimizar a exploração.

📖

termos

UCB-V

Algoritmo UCB que utiliza explicitamente as estimativas de variância para construir limites de confiança mais precisos, particularmente eficaz com recompensas de alta variância.

📖

termos

UCB-alpha

Generalização paramétrica do UCB1 onde o parâmetro alfa controla a agressividade da exploração, permitindo ajustar o compromisso exploração-explotação conforme necessário.

📖

termos

MOSS (Minimax Optimal Strategy)

Algoritmo UCB ótimo no sentido minimax que atinge o arrependimento mínimo no pior caso, adaptando os limites de confiança ao número total de iterações restantes.

📖

termos

KL-UCB

Variante do UCB que utiliza a divergência de Kullback-Leibler para construir limites de confiança assintoticamente ótimos, particularmente adequada para recompensas limitadas.

📖

termos

Arrependimento logarítmico

Medida de desempenho dos algoritmos UCB onde o arrependimento acumulado cresce logaritmicamente com o tempo, caracterizando a otimalidade em problemas de bandidos estacionários.

📖

termos

Otimismo diante da incerteza

Princípio filosófico e matemático que guia os algoritmos UCB, postulando que ações incertas merecem ser exploradas porque podem ser ótimas.

📖

termos

Índice de Confiança

Índice que quantifica o nível de certeza estatística na estimativa de uma ação, usado para ponderar a exploração em variantes avançadas dos algoritmos UCB.

📖

termos

Otimidade Assintótica

Propriedade teórica que garante que um algoritmo UCB atinge assintoticamente o menor limite de arrependimento possível, caracterizando sua eficiência a longo prazo.

📖

termos

UCB-Normal

Variante de UCB especificamente projetada para recompensas que seguem uma distribuição normal, explorando as propriedades exatas da distribuição gaussiana para limites ótimos.

📖

termos

UCB Eficiente

Família de algoritmos UCB que alcançam uma complexidade computacional ótima, mantendo as garantias teóricas de arrependimento logarítmico para problemas em larga escala.

📖

termos

Árvores de Confiança Superior (UCT)

Aplicação do princípio UCB a árvores de busca para tomada de decisão sequencial, fundamento de muitos algoritmos de jogo como o AlphaGo que utiliza Monte Carlo Tree Search.

Glossário IA

UCB1

UCB1-Tuned

UCB-V

UCB-alpha

MOSS (Minimax Optimal Strategy)

KL-UCB

Arrependimento logarítmico

Otimismo diante da incerteza

Índice de Confiança

Otimidade Assintótica

UCB-Normal

UCB Eficiente

Árvores de Confiança Superior (UCT)

Nenhum resultado encontrado