Глоссарий ИИ
Полный словарь искусственного интеллекта
Поведенческое клонирование
Обучение с учителем, при котором агент напрямую имитирует действия экспертов на основе демонстраций.
Обратное обучение с подкреплением
Определяет оптимальную функцию вознаграждения на основе наблюдаемого поведения экспертов.
Генеративно-состязательное имитационное обучение
Использует состязательные сети для различения действий агента и эксперта.
Dataset Aggregation (DAgger)
Итеративный метод, собирающий новые экспертные данные по траекториям агента для улучшения политики.
Обучение вознаграждению на основе человеческой обратной связи
Изучает вознаграждения на основе сравнительных или качественных оценок, предоставленных людьми.
Офлайн обучение с подкреплением
Обучение с подкреплением, использующее только фиксированные наборы данных без взаимодействия со средой.
Обучение с подражанием на основе модели
Строит динамическую модель окружения для ускорения обучения с подражанием.
Мета-обучение имитации
Учится быстро имитировать новые задачи всего по нескольким демонстрациям.
Иерархическое обучение с подражанием
Разбивает сложные поведения на иерархию более простых подзадач для подражания.
Мультимодальное обучение с подражанием
Управляет несколькими допустимыми решениями для одной задачи, изучая распределение по действиям.
Самоимитационное обучение
Агент имитирует свои собственные прошлые успешные действия для улучшения текущей политики.
Целеориентированное обучение с подражанием
Изучает политику, обусловленную конкретными целями для выполнения различных задач.
Adversarial Inverse Reinforcement Learning
Сочетание IRL с состязательным обучением для более надежной оценки вознаграждений.
Обучение с подражанием при частичных наблюдениях
Обучение с подражанием в средах, где агент наблюдает только часть состояния.
Имитационное обучение по учебному плану
Прогрессивная последовательность демонстраций с возрастающей сложностью для облегчения обучения.