Непрерывное дистрибутивное обучение с подкреплением

📖

термины

Распределение по непрерывным квантилям

Представление распределения вознаграждения как набора развивающихся квантилей в пространствах непрерывных действий, позволяющее точное моделирование неопределенности и рисков.

📖

термины

Распределительная проекция Крамера-Вольда

Математическая техника, позволяющая сравнивать распределения путем проецирования на одномерные направления, существенная для распределительных метрик в непрерывном обучении с подкреплением.

📖

термины

Сеть атомарного распределения

Нейронная архитектура, представляющая распределение как взвешенный набор фиксированных атомов, адаптированная для проблем непрерывного действия со стохастическим вознаграждением.

📖

термины

Непрерывный распределительный риск

Мера, количественно оценивающая неопределенность в распределениях вознаграждения пространств непрерывных действий, критическая для оценки устойчивых политик.

📖

термины

Распределительная стохастическая политика

Стратегия действия, непосредственно интегрирующая распределение вознаграждения в выбор непрерывных действий, оптимизирующая на всем распределении, а не только на ожидании.

📖

термины

Ожидание квантильного распределения

Оператор, вычисляющий ожидание из представления квантилями, сохраняющий распределительные свойства в непрерывных пространствах.

📖

термины

Распределительная выборка с отклонением

Метод выборки, сохраняющий распределительные свойства при генерации непрерывных действий из сложных распределений вознаграждения.

📖

термины

Стохастическая распределительная оптимизация

Парадигма оптимизации, работающая непосредственно с распределениями вознаграждений, а не с их точечными оценками в непрерывных пространствах.

📖

термины

Аппроксимация распределительными ядрами

Техника использования ядерных функций для аппроксимации распределений возврата в пространствах непрерывных действий высокой размерности.

📖

термины

Расстояние Вассерштейна в непрерывном RL

Метрика, измеряющая различие между распределениями возврата, особенно подходящая для задач непрерывных действий со сложной геометрией.

📖

термины

Распределительное выборочное взвешивание

Техника взвешенной выборки, сохраняющая распределительные характеристики при оценке градиентов политики в непрерывном пространстве.

📖

термины

Распределительное обновление методом Монте-Карло

Алгоритм, обновляющий распределения возврата с использованием выборок Монте-Карло в пространствах непрерывных действий, сохраняя распределительную форму.

📖

термины

Распределительное сокращение дисперсии

Набор техник, направленных на сокращение дисперсии в распределительных оценках без потери информации о форме распределений.

📖

термины

Распределительная жадная политика

Стратегия выбора оптимальных действий на основе критерия полного распределения (например, квантиль, CVaR) вместо только ожидания в непрерывном пространстве.

📖

термины

Распределительное уравнение Беллмана

Формулировка уравнения Беллмана, оперирующая полными распределениями вместо скалярных значений, фундаментальная для непрерывного распределительного RL.

📖

термины

Распределительный критик в непрерывном пространстве

Нейронная сеть, оценивающая полное распределение возвратов для непрерывных состояний-действий, заменяющая традиционного критика со скалярным значением.

📖

термины

Распределительное смещение в непрерывных действиях

Явление, при котором распределительные аппроксимации вносят систематические смещения в оценку возвратов в пространствах непрерывных действий.

📖

термины

Непрерывная распределительная нормализация

Техника нормализации, сохраняющая распределительные свойства при обработке непрерывных действий в различных масштабах.

📖

термины

Адаптивное распределительное исследование

Стратегия исследования, использующая полную информацию о распределении возвратов для адаптации исследовательского поведения в непрерывных действиях.

Глоссарий ИИ

Распределение по непрерывным квантилям

Распределительная проекция Крамера-Вольда

Сеть атомарного распределения

Непрерывный распределительный риск

Распределительная стохастическая политика

Ожидание квантильного распределения

Распределительная выборка с отклонением

Стохастическая распределительная оптимизация

Аппроксимация распределительными ядрами

Расстояние Вассерштейна в непрерывном RL

Распределительное выборочное взвешивание

Распределительное обновление методом Монте-Карло

Распределительное сокращение дисперсии

Распределительная жадная политика

Распределительное уравнение Беллмана

Распределительный критик в непрерывном пространстве

Распределительное смещение в непрерывных действиях

Непрерывная распределительная нормализация

Адаптивное распределительное исследование

Результаты не найдены