Планирование с помощью обучения с подкреплением

📖

термины

Политика планирования (Planning Policy)

Функция или стратегия, которая сопоставляет каждое состояние окружающей среды с определённым действием, определяя поведение агента для достижения оптимальных целей планирования.

📖

термины

Формирование вознаграждения (Reward Shaping)

Техника разработки вознаграждений, которая изменяет исходную функцию вознаграждения для более эффективного направления агента к желаемым поведенческим моделям планирования.

📖

термины

Иерархическое планирование с помощью RL (Hierarchical RL Planning)

Подход, при котором политика планирования разлагается на иерархию подзадач или подполитик, что позволяет решать сложные задачи планирования более эффективно.

📖

термины

Мета-обучение для планирования (Meta-Learning for Planning)

Парадигма, в которой агент учится обучаться адаптивным политикам планирования, которые могут быстро адаптироваться к новым средам или целям планирования.

📖

термины

Планирование с несколькими агентами с помощью RL (Multi-Agent RL Planning)

Расширение RL для сценариев, где несколько агентов одновременно изучают политики планирования, требуя учёта взаимодействий и сотрудничества/конкуренции между агентами.

📖

термины

Надёжное планирование с помощью RL (Robust RL Planning)

Подход, направленный на изучение политик планирования, которые поддерживают свою производительность перед лицом неопределённостей и изменений в среде или модели динамики.

📖

термины

Трансферное обучение в планировании RL (Transfer Learning in RL Planning)

Техника, позволяющая повторно использовать знания или изученные политики в контексте планирования для ускорения обучения в новом подобном контексте.

📖

термины

Планирование с помощью RL с ограничениями (Constrained RL Planning)

Формулировка RL, где агент должен оптимизировать свою политику планирования с учётом ограничений безопасности, ресурсов или других специфических для области ограничений.

📖

термины

Обучение с подкреплением на основе модели (Model-Based RL)

Подход, при котором агент изучает или использует явную модель динамики окружающей среды для улучшения планирования и принятия решений, в отличие от обучения с подкреплением без модели.

📖

термины

Непрерывное планирование с помощью обучения с подкреплением (Continuous RL Planning)

Специализация обучения с подкреплением для задач планирования, где пространства состояний и действий непрерывны, требуя специфических техник аппроксимации, таких как актор-критик.

📖

термины

Эпизод планирования (Planning Episode)

Полная последовательность взаимодействий между агентом и средой от начального состояния до терминального, составляющая единицу обучения для политики планирования.

📖

термины