🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

UCB1

Базовый алгоритм UCB, использующий неравенство Хеффдинга для вычисления доверительных границ, обеспечивающий логарифмическое сожаление в стационарных задачах о многоруком бандите.

📖
термины

UCB1-Tuned

Улучшенный вариант UCB1, который динамически адаптирует доверительные границы в зависимости от наблюдаемой дисперсии вознаграждений для оптимизации исследования.

📖
термины

UCB-V

Алгоритм UCB, явно использующий оценки дисперсии для построения более точных доверительных границ, особенно эффективный при вознаграждениях с высокой дисперсией.

📖
термины

UCB-alpha

Параметрическое обобщение UCB1, где параметр альфа контролирует агрессивность исследования, позволяя настраивать компромисс между исследованием и использованием в зависимости от потребностей.

📖
термины

MOSS (Minimax Optimal Strategy)

Минимаксно-оптимальный алгоритм UCB, достигающий минимального сожаления в худшем случае за счёт адаптации доверительных границ к общему числу оставшихся итераций.

📖
термины

KL-UCB

Вариант UCB, использующий дивергенцию Кульбака-Лейблера для построения асимптотически оптимальных доверительных границ, особенно подходящий для ограниченных вознаграждений.

📖
термины

Regret logarithmique

Показатель производительности алгоритмов UCB, при котором кумулятивное сожаление растёт логарифмически со временем, что характеризует оптимальность в стационарных задачах о многоруком бандите.

📖
термины

Optimisme face à l'incertitude

Философский и математический принцип, лежащий в основе алгоритмов UCB, постулирующий, что неопределённые действия заслуживают исследования, поскольку они могут оказаться оптимальными.

📖
термины

Индекс уверенности

Индекс, количественно определяющий уровень статистической достоверности оценки действия, используемый для взвешивания исследования в расширенных вариантах алгоритмов UCB.

📖
термины

Асимптотическая оптимальность

Теоретическое свойство, гарантирующее, что алгоритм UCB асимптотически достигает наименьшей возможной границы сожаления, характеризующее его долгосрочную эффективность.

📖
термины

UCB-Normal

Вариант UCB, специально разработанный для вознаграждений, следующих нормальному распределению, использующий точные свойства гауссовского распределения для оптимальных границ.

📖
термины

Эффективный UCB

Семейство алгоритмов UCB, достигающее оптимальной вычислительной сложности при сохранении теоретических гарантий логарифмического сожаления для крупномасштабных задач.

📖
термины

Деревья верхнего доверия (UCT)

Применение принципа UCB к деревьям поиска для последовательного принятия решений, основа многих игровых алгоритмов, таких как AlphaGo, использующих поиск по дереву Монте-Карло.

🔍

Результаты не найдены