Глоссарий ИИ
Полный словарь искусственного интеллекта
Распределение вознаграждений
Полное вероятностное представление суммы дисконтированных будущих вознаграждений, охватывающее все возможные сценарии, а не одно ожидаемое значение.
Квантильное распределение
Подход, моделирующий квантили распределения вознаграждений для захвата изменчивости и хвостов распределения наград.
Условный риск по значению
Надежная мера риска, вычисляющая математическое ожидание вознаграждений в нижнем хвосте распределения, превышая указанный квантиль.
Неявное распределение
Распределительное представление, изучаемое косвенно без явных параметров, часто через генеративные нейронные сети или сэмплеры.
Дисперсия вознаграждений
Мера рассеяния, количественно оценивающая среднее квадратическое отклонение вознаграждений от их математического ожидания, ключевой показатель риска в решениях.
Энтропия политики
Мера неопределенности действий агента, используемая для исследования пространства состояний-действий и количественной оценки поведенческой неопределенности.
Доверительный интервал
Статистические интервалы, гарантирующие с предопределенной вероятностью, что истинное значение находится в оценочном диапазоне, необходимые для безопасного исследования.
Распределение Крамера
Семейство гибких распределений, позволяющих моделировать асимметрии и толстые хвосты в вознаграждениях, выходящие за рамки гауссовых предположений.
Ядерная оценка
Непараметрический метод для оценки плотности вероятности вознаграждений с использованием ядерных функций для сглаживания эмпирических наблюдений.
Распространение неопределенности
Процесс передачи неопределенности через последовательные этапы обучения с подкреплением, от наблюдений до окончательных решений.
Вариационная аппроксимация
Метод оптимизации, аппроксимирующий сложные распределения более простыми семействами, минимизируя расхождение между распределениями.
Смесительное распределение
Взвешенная комбинация нескольких базовых распределений, позволяющая захватывать мультимодальные поведения в ожидаемых вознаграждениях.
Функция кумулятивного распределения
Функция F(x), дающая вероятность того, что вознаграждение будет меньше или равно x, полностью характеризующая распределение вознаграждений.
Компромисс между смещением и дисперсией
Фундаментальная дилемма между сложностью модели (высокая дисперсия, низкое смещение) и её простотой (низкая дисперсия, высокое смещение) в оценке распределений.