Algorithmes UCB - Glossaire IA

📖

termes

UCB1

Algorithme UCB de base utilisant l'inégalité de Hoeffding pour calculer les bornes de confiance, offrant un regret logarithmique garanti dans le cadre des bandits stationnaires.

📖

termes

UCB1-Tuned

Variante améliorée de UCB1 qui adapte dynamiquement les bornes de confiance en fonction de la variance observée des récompenses pour optimiser l'exploration.

📖

termes

UCB-V

Algorithme UCB utilisant explicitement les estimations de variance pour construire des bornes de confiance plus précises, particulièrement efficace avec des récompenses à forte variance.

📖

termes

UCB-alpha

Généralisation paramétrique de UCB1 où le paramètre alpha contrôle l'agressivité de l'exploration, permettant d'ajuster le compromis exploration-exploitation selon les besoins.

📖

termes

MOSS (Minimax Optimal Strategy)

Algorithme UCB optimal au sens minimax qui atteint le regret minimal dans le pire cas en adaptant les bornes de confiance au nombre total d'itérations restantes.

📖

termes

KL-UCB

Variante de UCB utilisant la divergence de Kullback-Leibler pour construire des bornes de confiance asymptotiquement optimales, particulièrement adaptée aux récompenses bornées.

📖

termes

Regret logarithmique

Mesure de performance des algorithmes UCB où le regret cumulé croît logarithmiquement avec le temps, caractérisant l'optimalité dans les problèmes de bandits stationnaires.

📖

termes

Optimisme face à l'incertitude

Principe philosophique et mathématique guidant les algorithmes UCB, postulant que les actions incertaines méritent d'être explorées car elles pourraient être optimales.

📖

termes

Confidence Index

Indice quantifiant le niveau de certitude statistique sur l'estimation d'une action, utilisé pour pondérer l'exploration dans les variantes avancées des algorithmes UCB.

📖

termes

Asymptotic Optimality

Propriété théorique garantissant qu'un algorithme UCB atteint asymptotiquement la plus faible borne de regret possible, caractérisant son efficacité à long terme.

📖

termes

UCB-Normal

Variante de UCB spécifiquement conçue pour les récompenses suivant une distribution normale, exploitant les propriétés exactes de la distribution gaussienne pour des bornes optimales.

📖

termes

Efficient UCB

Famille d'algorithmes UCB atteignant une complexité computationnelle optimale tout en conservant les garanties théoriques de regret logarithmique pour les problèmes à grande échelle.

📖

termes

Upper Confidence Trees (UCT)

Application du principe UCB aux arbres de recherche pour la prise de décision séquentielle, fondement de nombreux algorithmes de jeu comme AlphaGo utilisant Monte Carlo Tree Search.

Glossaire IA

UCB1

UCB1-Tuned

UCB-V

UCB-alpha

MOSS (Minimax Optimal Strategy)

KL-UCB

Regret logarithmique

Optimisme face à l'incertitude

Confidence Index

Asymptotic Optimality

UCB-Normal

Efficient UCB

Upper Confidence Trees (UCT)

Aucun résultat trouvé