Глоссарий ИИ
Полный словарь искусственного интеллекта
Bandit Contextuel
Algorithme d'apprentissage par renforcement qui sélectionne dynamiquement les meilleures actions en fonction du contexte observé pour maximiser les récompenses cumulées.
Exploration vs Exploitation
Dilemme fondamental où l'algorithme doit équilibrer la découverte de nouvelles options et l'exploitation des options connues comme performantes.
Upper Confidence Bound (UCB)
Stratégie qui sélectionne les bras en fonction d'une borne supérieure de confiance sur leur récompense attendue, favorisant l'exploration des actions incertaines.
Thompson Sampling
Algorithme bayésien qui échantillonne les paramètres de récompense depuis leur distribution postérieure pour prendre des décisions probabilistes.
LinUCB
Extension de l'UCB qui modélise la récompense attendue comme une fonction linéaire du contexte, adaptée aux espaces de contextes de grande dimension.
Context Features
Variables descriptives qui caractérisent l'état actuel de l'environnement et influencent le choix optimal de l'action dans les bandits contextuels.
Regret Minimization
Objectif visant à minimiser la différence entre la récompense cumulée obtenue et celle de la politique optimale, mesurant la performance de l'algorithme.
Multi-armed Bandits
Problème fondamental où un agent doit sélectionner parmi plusieurs options (bras) avec des distributions de récompense inconnues pour maximiser le gain.
Reward Function
Математическая функция, которая количественно оценивает немедленное вознаграждение, полученное после совершения действия в заданном контексте, направляя обучение алгоритма.
Arm Selection
Процесс выбора оптимального действия из доступных вариантов на основе текущих оценок вознаграждения и наблюдаемого контекста.
Expected Reward
Ожидаемое среднее значение вознаграждения для данного действия в определённом контексте, вычисленное на основе исторических наблюдений.
Action-Value Function
Функция Q(a,x), которая оценивает ожидаемое будущее вознаграждение при выборе действия 'a' в контексте 'x', являющаяся основой для оценки стратегий.
Online Learning
Парадигма обучения, в которой модель непрерывно адаптируется по мере поступления новых данных, не требуя полного переобучения.
Stochastic Contextual Bandits
Вариант, в котором вознаграждения следуют стохастическим независимым и одинаково распределённым распределениям для каждой пары контекст-действие.
Neural Bandits
Подход, использующий нейронные сети для аппроксимации функции ценности или стратегии, способный улавливать сложные нелинейные зависимости.