Bandits Contextuels - Glossaire IA

📖

termes

Bandit Contextuel

Algorithme d'apprentissage par renforcement qui sélectionne dynamiquement les meilleures actions en fonction du contexte observé pour maximiser les récompenses cumulées.

📖

termes

Exploration vs Exploitation

Dilemme fondamental où l'algorithme doit équilibrer la découverte de nouvelles options et l'exploitation des options connues comme performantes.

📖

termes

Upper Confidence Bound (UCB)

Stratégie qui sélectionne les bras en fonction d'une borne supérieure de confiance sur leur récompense attendue, favorisant l'exploration des actions incertaines.

📖

termes

Thompson Sampling

Algorithme bayésien qui échantillonne les paramètres de récompense depuis leur distribution postérieure pour prendre des décisions probabilistes.

📖

termes

LinUCB

Extension de l'UCB qui modélise la récompense attendue comme une fonction linéaire du contexte, adaptée aux espaces de contextes de grande dimension.

📖

termes

Context Features

Variables descriptives qui caractérisent l'état actuel de l'environnement et influencent le choix optimal de l'action dans les bandits contextuels.

📖

termes

Regret Minimization

Objectif visant à minimiser la différence entre la récompense cumulée obtenue et celle de la politique optimale, mesurant la performance de l'algorithme.

📖

termes

Multi-armed Bandits

Problème fondamental où un agent doit sélectionner parmi plusieurs options (bras) avec des distributions de récompense inconnues pour maximiser le gain.

📖

termes

Reward Function

Fonction mathématique qui quantifie le retour immédiat obtenu après avoir pris une action dans un contexte donné, guidant l'apprentissage de l'algorithme.

📖

termes

Arm Selection

Processus de choix de l'action optimale parmi les options disponibles basé sur les estimations actuelles des récompenses et le contexte observé.

📖

termes

Expected Reward

Valeur moyenne anticipée de la récompense pour une action donnée dans un contexte spécifique, calculée à partir des observations historiques.

📖

termes

Action-Value Function

Fonction Q(a,x) qui estime la récompense future attendue en prenant l'action 'a' dans le contexte 'x', fondamentale pour l'évaluation des politiques.

📖

termes

Online Learning

Paradigme d'apprentissage où le modèle s'ajuste continuellement à mesure que de nouvelles données arrivent, sans nécessiter de réentraînement complet.

📖

termes

Stochastic Contextual Bandits

Variante où les récompenses suivent des distributions stochastiques indépendantes et identiquement distribuées pour chaque paire contexte-action.

📖

termes

Neural Bandits

Approche utilisant des réseaux de neurones pour approximer la fonction de valeur ou la politique, capable de capturer des relations non-linéaires complexes.

Glossaire IA

Bandit Contextuel

Exploration vs Exploitation

Upper Confidence Bound (UCB)

Thompson Sampling

LinUCB

Context Features

Regret Minimization

Multi-armed Bandits

Reward Function

Arm Selection

Expected Reward

Action-Value Function

Online Learning

Stochastic Contextual Bandits

Neural Bandits

Aucun résultat trouvé