Контекстуальные бандиты

📖

термины

Bandit Contextuel

Algorithme d'apprentissage par renforcement qui sélectionne dynamiquement les meilleures actions en fonction du contexte observé pour maximiser les récompenses cumulées.

📖

термины

Exploration vs Exploitation

Dilemme fondamental où l'algorithme doit équilibrer la découverte de nouvelles options et l'exploitation des options connues comme performantes.

📖

термины

Upper Confidence Bound (UCB)

Stratégie qui sélectionne les bras en fonction d'une borne supérieure de confiance sur leur récompense attendue, favorisant l'exploration des actions incertaines.

📖

термины

Thompson Sampling

Algorithme bayésien qui échantillonne les paramètres de récompense depuis leur distribution postérieure pour prendre des décisions probabilistes.

📖

термины

LinUCB

Extension de l'UCB qui modélise la récompense attendue comme une fonction linéaire du contexte, adaptée aux espaces de contextes de grande dimension.

📖

термины

Context Features

Variables descriptives qui caractérisent l'état actuel de l'environnement et influencent le choix optimal de l'action dans les bandits contextuels.

📖

термины

Regret Minimization

Objectif visant à minimiser la différence entre la récompense cumulée obtenue et celle de la politique optimale, mesurant la performance de l'algorithme.

📖

термины

Multi-armed Bandits

Problème fondamental où un agent doit sélectionner parmi plusieurs options (bras) avec des distributions de récompense inconnues pour maximiser le gain.

📖

термины

Reward Function

Математическая функция, которая количественно оценивает немедленное вознаграждение, полученное после совершения действия в заданном контексте, направляя обучение алгоритма.

📖

термины

Arm Selection

Процесс выбора оптимального действия из доступных вариантов на основе текущих оценок вознаграждения и наблюдаемого контекста.

📖

термины

Expected Reward

Ожидаемое среднее значение вознаграждения для данного действия в определённом контексте, вычисленное на основе исторических наблюдений.

📖

термины

Action-Value Function

Функция Q(a,x), которая оценивает ожидаемое будущее вознаграждение при выборе действия 'a' в контексте 'x', являющаяся основой для оценки стратегий.

📖

термины

Online Learning

Парадигма обучения, в которой модель непрерывно адаптируется по мере поступления новых данных, не требуя полного переобучения.

📖

термины

Stochastic Contextual Bandits

Вариант, в котором вознаграждения следуют стохастическим независимым и одинаково распределённым распределениям для каждой пары контекст-действие.

📖

термины

Neural Bandits

Подход, использующий нейронные сети для аппроксимации функции ценности или стратегии, способный улавливать сложные нелинейные зависимости.

Глоссарий ИИ

Bandit Contextuel

Exploration vs Exploitation

Upper Confidence Bound (UCB)

Thompson Sampling

LinUCB

Context Features

Regret Minimization

Multi-armed Bandits

Reward Function

Arm Selection

Expected Reward

Action-Value Function

Online Learning

Stochastic Contextual Bandits

Neural Bandits

Результаты не найдены