Глоссарий ИИ
Полный словарь искусственного интеллекта
Пакетное Обучение с Обратным Подкреплением
Метод IRL, который обучается на фиксированном наборе экспертных демонстраций без активного взаимодействия со средой.
Активное Обратное Обучение с Подкреплением
Подход IRL, при котором агент активно выбирает действия для выполнения, чтобы лучше понять функцию вознаграждения эксперта.
Байесовское Обратное Обучение с Подкреплением
Фреймворк IRL, использующий байесовский вывод для моделирования неопределенности функции вознаграждения на основе демонстраций.
Обратное обучение с подкреплением на основе предпочтений
Метод IRL, который выводит вознаграждения из сравнений предпочтений между траекториями, а не из полных демонстраций.
Иерархическое Обучение с Обратным Подкреплением
Подход IRL, который разбивает сложные задачи на иерархические подзадачи для изучения функций вознаграждения на нескольких уровнях.
Мультиагентное обучение с обратным подкреплением
Расширение IRL на среды, где взаимодействуют несколько агентов и должны изучать коллективные или индивидуальные вознаграждения.
Глубокое Обучение с Подкреплением на Основе Обратной Связи
Использование глубоких нейронных сетей для представления и изучения сложных функций вознаграждения из данных высокой размерности.
Обучение с подкреплением с помощью обратного противоборства
Фреймворк IRL, использующий методы противоборственных игр, где генератор и дискриминатор соревнуются для изучения вознаграждения.
Обратное обучение с подкреплением с помощью обучения с подкреплением
Метод, преобразующий проблему IRL в стандартную задачу RL, где агент учится максимизировать правдоподобие демонстраций.
Полу-контролируемое Обучение с Обратным Подкреплением
Подход IRL, объединяющий размеченные демонстрации с немаркированными данными для улучшения обучения функциям вознаграждения.
Обратное обучение с подкреплением для робототехники
Специализированное применение IRL для изучения роботизированного поведения на основе человеческих демонстраций в манипуляции и навигации.
Обратное обучение с подкреплением с обратной связью пользователя
Метод IRL, активно интегрирующий качественную обратную связь пользователей для итеративного уточнения функции вознаграждения.
Кооперативное Обратное Обучение с Подкреплением
Фреймворк IRL, в котором человек и ИИ активно сотрудничают для совместного определения и оптимизации целей вознаграждения.
Обратное обучение с подкреплением для планирования
Использование IRL для извлечения неявных целей из существующих планов с целью улучшения будущих систем планирования.
Обратное обучение с подкреплением путем максимизации энтропии
Подход IRL, отдающий предпочтение решениям вознаграждения с максимальной энтропией для предотвращения переобучения на демонстрациях.