🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Распределение вознаграждений

Полное вероятностное представление суммы дисконтированных будущих вознаграждений, охватывающее все возможные сценарии, а не одно ожидаемое значение.

📖
термины

Квантильное распределение

Подход, моделирующий квантили распределения вознаграждений для захвата изменчивости и хвостов распределения наград.

📖
термины

Условный риск по значению

Надежная мера риска, вычисляющая математическое ожидание вознаграждений в нижнем хвосте распределения, превышая указанный квантиль.

📖
термины

Неявное распределение

Распределительное представление, изучаемое косвенно без явных параметров, часто через генеративные нейронные сети или сэмплеры.

📖
термины

Дисперсия вознаграждений

Мера рассеяния, количественно оценивающая среднее квадратическое отклонение вознаграждений от их математического ожидания, ключевой показатель риска в решениях.

📖
термины

Энтропия политики

Мера неопределенности действий агента, используемая для исследования пространства состояний-действий и количественной оценки поведенческой неопределенности.

📖
термины

Доверительный интервал

Статистические интервалы, гарантирующие с предопределенной вероятностью, что истинное значение находится в оценочном диапазоне, необходимые для безопасного исследования.

📖
термины

Распределение Крамера

Семейство гибких распределений, позволяющих моделировать асимметрии и толстые хвосты в вознаграждениях, выходящие за рамки гауссовых предположений.

📖
термины

Ядерная оценка

Непараметрический метод для оценки плотности вероятности вознаграждений с использованием ядерных функций для сглаживания эмпирических наблюдений.

📖
термины

Распространение неопределенности

Процесс передачи неопределенности через последовательные этапы обучения с подкреплением, от наблюдений до окончательных решений.

📖
термины

Вариационная аппроксимация

Метод оптимизации, аппроксимирующий сложные распределения более простыми семействами, минимизируя расхождение между распределениями.

📖
термины

Смесительное распределение

Взвешенная комбинация нескольких базовых распределений, позволяющая захватывать мультимодальные поведения в ожидаемых вознаграждениях.

📖
термины

Функция кумулятивного распределения

Функция F(x), дающая вероятность того, что вознаграждение будет меньше или равно x, полностью характеризующая распределение вознаграждений.

📖
термины

Компромисс между смещением и дисперсией

Фундаментальная дилемма между сложностью модели (высокая дисперсия, низкое смещение) и её простотой (низкая дисперсия, высокое смещение) в оценке распределений.

🔍

Результаты не найдены