Глоссарий ИИ
Полный словарь искусственного интеллекта
Мета-обучение с подкреплением
Подход обучения с подкреплением, при котором агент учится учиться, приобретая мета-знания для быстрой адаптации к новым задачам с небольшим количеством опыта.
Мета-обучающийся агент
Алгоритм или модель, которая оптимизирует процесс обучения для приобретения способности быстро адаптироваться к новым задачам, не виденным во время обучения.
Задачно-специфичная политика
Политика обучения с подкреплением, адаптированная к конкретной задаче, быстро генерируемая мета-обучающимся агентом на основе небольшого количества опыта.
Проксимальная оптимизация мета-политики (ProMP)
Алгоритм мета-RL, который расширяет PPO до мета-обучения, оптимизируя мета-политику, способную генерировать политики, специфичные для каждой задачи.
Meta-World
Стандартный набор тестов и сред для оценки алгоритмов мета-RL на задачах манипуляции роботом с разнообразным распределением задач.
RL² (Reinforcement Learning Squared)
Фреймворк мета-RL, в котором сам алгоритм обучения с подкреплением изучается другим процессом RL, интегрируя историю в состояние агента.
Мета-воспроизведение опыта
Техника буфера опыта, организованного по задачам, для облегчения быстрой адаптации и переноса знаний между различными задачами.
Градиент мета-политики
Алгоритм оптимизации, который вычисляет градиенты относительно мета-параметров для улучшения ожидаемой производительности на распределении задач.
Воспроизведение опыта с ретроспективой (HER) в мета-обучении с подкреплением
Расширение HER для мета-RL, где опыт переосмысливается с различными целями для улучшения выборки и обобщения между задачами.
Обучение по программе в мета-обучении с подкреплением
Постепенное упорядочивание обучающих задач по возрастающей сложности для улучшения адаптивной способности мета-обучающегося.
Мета-имитационное обучение
Сочетание мета-обучения и обучения путем имитации, где агент учится быстро имитировать новые демонстрации с небольшим количеством примеров.
Мета-оценка вне политики
Оценка производительности мета-обученной политики на новых задачах с использованием только предварительно собранных данных вне политики.