Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Bandit Contextuel
Algorithme d'apprentissage par renforcement qui sélectionne dynamiquement les meilleures actions en fonction du contexte observé pour maximiser les récompenses cumulées.
Exploration vs Exploitation
Dilemme fondamental où l'algorithme doit équilibrer la découverte de nouvelles options et l'exploitation des options connues comme performantes.
Upper Confidence Bound (UCB)
Stratégie qui sélectionne les bras en fonction d'une borne supérieure de confiance sur leur récompense attendue, favorisant l'exploration des actions incertaines.
Thompson Sampling
Algorithme bayésien qui échantillonne les paramètres de récompense depuis leur distribution postérieure pour prendre des décisions probabilistes.
LinUCB
Extension de l'UCB qui modélise la récompense attendue comme une fonction linéaire du contexte, adaptée aux espaces de contextes de grande dimension.
Context Features
Variables descriptives qui caractérisent l'état actuel de l'environnement et influencent le choix optimal de l'action dans les bandits contextuels.
Regret Minimization
Objectif visant à minimiser la différence entre la récompense cumulée obtenue et celle de la politique optimale, mesurant la performance de l'algorithme.
Multi-armed Bandits
Problème fondamental où un agent doit sélectionner parmi plusieurs options (bras) avec des distributions de récompense inconnues pour maximiser le gain.
Reward Function
Fonction mathématique qui quantifie le retour immédiat obtenu après avoir pris une action dans un contexte donné, guidant l'apprentissage de l'algorithme.
Arm Selection
Processus de choix de l'action optimale parmi les options disponibles basé sur les estimations actuelles des récompenses et le contexte observé.
Expected Reward
Valeur moyenne anticipée de la récompense pour une action donnée dans un contexte spécifique, calculée à partir des observations historiques.
Action-Value Function
Fonction Q(a,x) qui estime la récompense future attendue en prenant l'action 'a' dans le contexte 'x', fondamentale pour l'évaluation des politiques.
Online Learning
Paradigme d'apprentissage où le modèle s'ajuste continuellement à mesure que de nouvelles données arrivent, sans nécessiter de réentraînement complet.
Stochastic Contextual Bandits
Variante où les récompenses suivent des distributions stochastiques indépendantes et identiquement distribuées pour chaque paire contexte-action.
Neural Bandits
Approche utilisant des réseaux de neurones pour approximer la fonction de valeur ou la politique, capable de capturer des relations non-linéaires complexes.