Глоссарий ИИ
Полный словарь искусственного интеллекта
Политика планирования (Planning Policy)
Функция или стратегия, которая сопоставляет каждое состояние окружающей среды с определённым действием, определяя поведение агента для достижения оптимальных целей планирования.
Формирование вознаграждения (Reward Shaping)
Техника разработки вознаграждений, которая изменяет исходную функцию вознаграждения для более эффективного направления агента к желаемым поведенческим моделям планирования.
Иерархическое планирование с помощью RL (Hierarchical RL Planning)
Подход, при котором политика планирования разлагается на иерархию подзадач или подполитик, что позволяет решать сложные задачи планирования более эффективно.
Мета-обучение для планирования (Meta-Learning for Planning)
Парадигма, в которой агент учится обучаться адаптивным политикам планирования, которые могут быстро адаптироваться к новым средам или целям планирования.
Планирование с несколькими агентами с помощью RL (Multi-Agent RL Planning)
Расширение RL для сценариев, где несколько агентов одновременно изучают политики планирования, требуя учёта взаимодействий и сотрудничества/конкуренции между агентами.
Надёжное планирование с помощью RL (Robust RL Planning)
Подход, направленный на изучение политик планирования, которые поддерживают свою производительность перед лицом неопределённостей и изменений в среде или модели динамики.
Трансферное обучение в планировании RL (Transfer Learning in RL Planning)
Техника, позволяющая повторно использовать знания или изученные политики в контексте планирования для ускорения обучения в новом подобном контексте.
Планирование с помощью RL с ограничениями (Constrained RL Planning)
Формулировка RL, где агент должен оптимизировать свою политику планирования с учётом ограничений безопасности, ресурсов или других специфических для области ограничений.
Обучение с подкреплением на основе модели (Model-Based RL)
Подход, при котором агент изучает или использует явную модель динамики окружающей среды для улучшения планирования и принятия решений, в отличие от обучения с подкреплением без модели.
Непрерывное планирование с помощью обучения с подкреплением (Continuous RL Planning)
Специализация обучения с подкреплением для задач планирования, где пространства состояний и действий непрерывны, требуя специфических техник аппроксимации, таких как актор-критик.
Эпизод планирования (Planning Episode)
Полная последовательность взаимодействий между агентом и средой от начального состояния до терминального, составляющая единицу обучения для политики планирования.
Планирование с помощью обучения с подкреплением через обучение с подражанием (Imitation Learning for RL Planning)
Метод, при котором агент изучает политику планирования, имитируя демонстрации экспертов, часто используется для инициализации или направления обучения с подкреплением.
Оптимизация политики с помощью обучения с подкреплением (Policy Optimization)
Класс алгоритмов обучения с подкреплением, которые напрямую оптимизируют параметры политики планирования для максимизации ожидаемого вознаграждения, включая такие методы, как REINFORCE или PPO.