एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Bandits Multi-bras Classiques
Problème fondamental où l'agent choisit parmi plusieurs options pour maximiser la récompense cumulative.
Algorithmes Epsilon-Glouton
Stratégie qui exploite la meilleure action connue avec probabilité 1-ε et explore aléatoirement avec probabilité ε.
Algorithmes UCB
Méthodes basées sur les bornes supérieures de confiance qui équilibrent exploration et exploitation via des intervalles statistiques.
Thompson Sampling
Approche bayésienne qui échantillonne des paramètres selon leur distribution postérieure pour prendre des décisions.
Bandits Contextuels
Extension où les décisions dépendent de caractéristiques contextuelles observées à chaque tour.
Bandits Linéaires
Modèles où la récompense attendue est une fonction linéaire des caractéristiques contextuelles.
Bandits Non Stationnaires
Cadre où les distributions de récompense changent au cours du temps, nécessitant une adaptation continue.
Bandits Combinatoires
Problèmes où l'agent sélectionne des ensembles d'actions simultanément avec des contraintes structurelles.
Bandits Adversaires
Scénario où un adversaire choisit les récompenses pour minimiser le gain de l'agent.
Bandits en Cascade
Modèle où les items sont présentés séquentiellement jusqu'à ce que l'utilisateur clique sur l'un d'entre eux.
Bandits avec Feedback Limité
Situations où seule une information partielle sur les récompenses est observée après chaque action.
Bandits pour Publicité Online
Application spécifique pour l'optimisation des campagnes publicitaires en temps réel.
Bandits pour Tests A/B
Alternative intelligente aux tests A/B traditionnels pour l'optimisation des expériences web.
Bandits pour Recommandations
Systèmes qui apprennent les préférences utilisateur pour personnaliser les recommandations.
Bandits Hiérarchiques
Structures multi-niveaux où les décisions sont organisées en hiérarchie pour des problèmes complexes.