🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Bandit Contextuel

Algorithme d'apprentissage par renforcement qui sélectionne dynamiquement les meilleures actions en fonction du contexte observé pour maximiser les récompenses cumulées.

📖
термины

Exploration vs Exploitation

Dilemme fondamental où l'algorithme doit équilibrer la découverte de nouvelles options et l'exploitation des options connues comme performantes.

📖
термины

Upper Confidence Bound (UCB)

Stratégie qui sélectionne les bras en fonction d'une borne supérieure de confiance sur leur récompense attendue, favorisant l'exploration des actions incertaines.

📖
термины

Thompson Sampling

Algorithme bayésien qui échantillonne les paramètres de récompense depuis leur distribution postérieure pour prendre des décisions probabilistes.

📖
термины

LinUCB

Extension de l'UCB qui modélise la récompense attendue comme une fonction linéaire du contexte, adaptée aux espaces de contextes de grande dimension.

📖
термины

Context Features

Variables descriptives qui caractérisent l'état actuel de l'environnement et influencent le choix optimal de l'action dans les bandits contextuels.

📖
термины

Regret Minimization

Objectif visant à minimiser la différence entre la récompense cumulée obtenue et celle de la politique optimale, mesurant la performance de l'algorithme.

📖
термины

Multi-armed Bandits

Problème fondamental où un agent doit sélectionner parmi plusieurs options (bras) avec des distributions de récompense inconnues pour maximiser le gain.

📖
термины

Reward Function

Математическая функция, которая количественно оценивает немедленное вознаграждение, полученное после совершения действия в заданном контексте, направляя обучение алгоритма.

📖
термины

Arm Selection

Процесс выбора оптимального действия из доступных вариантов на основе текущих оценок вознаграждения и наблюдаемого контекста.

📖
термины

Expected Reward

Ожидаемое среднее значение вознаграждения для данного действия в определённом контексте, вычисленное на основе исторических наблюдений.

📖
термины

Action-Value Function

Функция Q(a,x), которая оценивает ожидаемое будущее вознаграждение при выборе действия 'a' в контексте 'x', являющаяся основой для оценки стратегий.

📖
термины

Online Learning

Парадигма обучения, в которой модель непрерывно адаптируется по мере поступления новых данных, не требуя полного переобучения.

📖
термины

Stochastic Contextual Bandits

Вариант, в котором вознаграждения следуют стохастическим независимым и одинаково распределённым распределениям для каждой пары контекст-действие.

📖
термины

Neural Bandits

Подход, использующий нейронные сети для аппроксимации функции ценности или стратегии, способный улавливать сложные нелинейные зависимости.

🔍

Результаты не найдены