Метараспознавание с подкреплением

📖

термины

Мета-обучение с подкреплением

Подход обучения с подкреплением, при котором агент учится учиться, приобретая мета-знания для быстрой адаптации к новым задачам с небольшим количеством опыта.

📖

термины

Мета-обучающийся агент

Алгоритм или модель, которая оптимизирует процесс обучения для приобретения способности быстро адаптироваться к новым задачам, не виденным во время обучения.

📖

термины

Задачно-специфичная политика

Политика обучения с подкреплением, адаптированная к конкретной задаче, быстро генерируемая мета-обучающимся агентом на основе небольшого количества опыта.

📖

термины

Проксимальная оптимизация мета-политики (ProMP)

Алгоритм мета-RL, который расширяет PPO до мета-обучения, оптимизируя мета-политику, способную генерировать политики, специфичные для каждой задачи.

📖

термины

Meta-World

Стандартный набор тестов и сред для оценки алгоритмов мета-RL на задачах манипуляции роботом с разнообразным распределением задач.

📖

термины

RL² (Reinforcement Learning Squared)

Фреймворк мета-RL, в котором сам алгоритм обучения с подкреплением изучается другим процессом RL, интегрируя историю в состояние агента.

📖

термины

Мета-воспроизведение опыта

Техника буфера опыта, организованного по задачам, для облегчения быстрой адаптации и переноса знаний между различными задачами.

📖

термины

Градиент мета-политики

Алгоритм оптимизации, который вычисляет градиенты относительно мета-параметров для улучшения ожидаемой производительности на распределении задач.

📖

термины

Воспроизведение опыта с ретроспективой (HER) в мета-обучении с подкреплением

Расширение HER для мета-RL, где опыт переосмысливается с различными целями для улучшения выборки и обобщения между задачами.

📖

термины

Обучение по программе в мета-обучении с подкреплением

Постепенное упорядочивание обучающих задач по возрастающей сложности для улучшения адаптивной способности мета-обучающегося.

📖

термины

Мета-имитационное обучение

Сочетание мета-обучения и обучения путем имитации, где агент учится быстро имитировать новые демонстрации с небольшим количеством примеров.

📖

термины

Мета-оценка вне политики

Оценка производительности мета-обученной политики на новых задачах с использованием только предварительно собранных данных вне политики.

Глоссарий ИИ

Мета-обучение с подкреплением

Мета-обучающийся агент

Задачно-специфичная политика

Проксимальная оптимизация мета-политики (ProMP)

Meta-World

RL² (Reinforcement Learning Squared)

Мета-воспроизведение опыта

Градиент мета-политики

Воспроизведение опыта с ретроспективой (HER) в мета-обучении с подкреплением

Обучение по программе в мета-обучении с подкреплением

Мета-имитационное обучение

Мета-оценка вне политики

Результаты не найдены