Глоссарий ИИ
Полный словарь искусственного интеллекта
Распределение по непрерывным квантилям
Представление распределения вознаграждения как набора развивающихся квантилей в пространствах непрерывных действий, позволяющее точное моделирование неопределенности и рисков.
Распределительная проекция Крамера-Вольда
Математическая техника, позволяющая сравнивать распределения путем проецирования на одномерные направления, существенная для распределительных метрик в непрерывном обучении с подкреплением.
Сеть атомарного распределения
Нейронная архитектура, представляющая распределение как взвешенный набор фиксированных атомов, адаптированная для проблем непрерывного действия со стохастическим вознаграждением.
Непрерывный распределительный риск
Мера, количественно оценивающая неопределенность в распределениях вознаграждения пространств непрерывных действий, критическая для оценки устойчивых политик.
Распределительная стохастическая политика
Стратегия действия, непосредственно интегрирующая распределение вознаграждения в выбор непрерывных действий, оптимизирующая на всем распределении, а не только на ожидании.
Ожидание квантильного распределения
Оператор, вычисляющий ожидание из представления квантилями, сохраняющий распределительные свойства в непрерывных пространствах.
Распределительная выборка с отклонением
Метод выборки, сохраняющий распределительные свойства при генерации непрерывных действий из сложных распределений вознаграждения.
Стохастическая распределительная оптимизация
Парадигма оптимизации, работающая непосредственно с распределениями вознаграждений, а не с их точечными оценками в непрерывных пространствах.
Аппроксимация распределительными ядрами
Техника использования ядерных функций для аппроксимации распределений возврата в пространствах непрерывных действий высокой размерности.
Расстояние Вассерштейна в непрерывном RL
Метрика, измеряющая различие между распределениями возврата, особенно подходящая для задач непрерывных действий со сложной геометрией.
Распределительное выборочное взвешивание
Техника взвешенной выборки, сохраняющая распределительные характеристики при оценке градиентов политики в непрерывном пространстве.
Распределительное обновление методом Монте-Карло
Алгоритм, обновляющий распределения возврата с использованием выборок Монте-Карло в пространствах непрерывных действий, сохраняя распределительную форму.
Распределительное сокращение дисперсии
Набор техник, направленных на сокращение дисперсии в распределительных оценках без потери информации о форме распределений.
Распределительная жадная политика
Стратегия выбора оптимальных действий на основе критерия полного распределения (например, квантиль, CVaR) вместо только ожидания в непрерывном пространстве.
Распределительное уравнение Беллмана
Формулировка уравнения Беллмана, оперирующая полными распределениями вместо скалярных значений, фундаментальная для непрерывного распределительного RL.
Распределительный критик в непрерывном пространстве
Нейронная сеть, оценивающая полное распределение возвратов для непрерывных состояний-действий, заменяющая традиционного критика со скалярным значением.
Распределительное смещение в непрерывных действиях
Явление, при котором распределительные аппроксимации вносят систематические смещения в оценку возвратов в пространствах непрерывных действий.
Непрерывная распределительная нормализация
Техника нормализации, сохраняющая распределительные свойства при обработке непрерывных действий в различных масштабах.
Адаптивное распределительное исследование
Стратегия исследования, использующая полную информацию о распределении возвратов для адаптации исследовательского поведения в непрерывных действиях.