Имитационное обучение с подкреплением

📂

подкатегории

Поведенческое клонирование

Обучение с учителем, при котором агент напрямую имитирует действия экспертов на основе демонстраций.

13 термины

📂

подкатегории

Обратное обучение с подкреплением

Определяет оптимальную функцию вознаграждения на основе наблюдаемого поведения экспертов.

6 термины

📂

подкатегории

Генеративно-состязательное имитационное обучение

Использует состязательные сети для различения действий агента и эксперта.

12 термины

📂

подкатегории

Dataset Aggregation (DAgger)

Итеративный метод, собирающий новые экспертные данные по траекториям агента для улучшения политики.

19 термины

📂

подкатегории

Обучение вознаграждению на основе человеческой обратной связи

Изучает вознаграждения на основе сравнительных или качественных оценок, предоставленных людьми.

14 термины

📂

подкатегории

Офлайн обучение с подкреплением

Обучение с подкреплением, использующее только фиксированные наборы данных без взаимодействия со средой.

9 термины

📂

подкатегории

Обучение с подражанием на основе модели

Строит динамическую модель окружения для ускорения обучения с подражанием.

10 термины

📂

подкатегории

Мета-обучение имитации

Учится быстро имитировать новые задачи всего по нескольким демонстрациям.

17 термины

📂

подкатегории

Иерархическое обучение с подражанием

Разбивает сложные поведения на иерархию более простых подзадач для подражания.

10 термины

📂

подкатегории

Мультимодальное обучение с подражанием

Управляет несколькими допустимыми решениями для одной задачи, изучая распределение по действиям.

9 термины

📂

подкатегории

Самоимитационное обучение

Агент имитирует свои собственные прошлые успешные действия для улучшения текущей политики.

17 термины

📂

подкатегории

Целеориентированное обучение с подражанием

Изучает политику, обусловленную конкретными целями для выполнения различных задач.

15 термины

📂

подкатегории

Adversarial Inverse Reinforcement Learning

Сочетание IRL с состязательным обучением для более надежной оценки вознаграждений.

12 термины

📂

подкатегории

Обучение с подражанием при частичных наблюдениях

Обучение с подражанием в средах, где агент наблюдает только часть состояния.

14 термины

📂

подкатегории

Имитационное обучение по учебному плану

Прогрессивная последовательность демонстраций с возрастающей сложностью для облегчения обучения.

14 термины

Глоссарий ИИ

Поведенческое клонирование

Обратное обучение с подкреплением

Генеративно-состязательное имитационное обучение

Dataset Aggregation (DAgger)

Обучение вознаграждению на основе человеческой обратной связи

Офлайн обучение с подкреплением

Обучение с подражанием на основе модели

Мета-обучение имитации

Иерархическое обучение с подражанием

Мультимодальное обучение с подражанием

Самоимитационное обучение

Целеориентированное обучение с подражанием

Adversarial Inverse Reinforcement Learning

Обучение с подражанием при частичных наблюдениях

Имитационное обучение по учебному плану

Результаты не найдены