Глоссарий ИИ
Полный словарь искусственного интеллекта
Клонирование поведения
Техника обучения имитации, при которой агент напрямую учится воспроизводить действия эксперта, минимизируя ошибку между своими предсказаниями и предоставленными демонстрациями. Этот подход преобразует задачу обучения в стандартную задачу обучения с учителем.
Обучение имитации
Парадигма машинного обучения, при которой агент приобретает навыки, наблюдая и воспроизводя поведение экспертов, без необходимости явных вознаграждений. Этот метод позволяет ускорить обучение, используя существующие знания.
Политика действий
Математическая функция, которая отображает каждое состояние на распределение вероятностей по возможным действиям, определяя поведение агента. При клонировании поведения эта политика изучается непосредственно на основе экспертных демонстраций.
Экспертные демонстрации
Набор траекторий или примеров состояний-действий, предоставленных человеком-экспертом или оптимальной системой, служащих в качестве обучающих данных для обучения имитации. Эти демонстрации содержат оптимальную стратегию для воспроизведения.
Ошибка предсказания
Мера, количественно определяющая разницу между действиями, предсказанными агентом, и действиями эксперта в тех же состояниях, часто вычисляемая через среднеквадратичную ошибку или расхождение Кульбака-Лейблера. Минимизация этой ошибки является основной целью клонирования поведения.
Обучение с учителем
Фреймворк обучения, в котором модель обучается на размеченных парах вход-выход, используемый в клонировании поведения для изучения экспертной политики. Этот подход позволяет преобразовать задачу имитации в задачу классификации или регрессии.
Распределение действий
Вероятностное представление возможных действий в заданном состоянии, отражающее предпочтения и неопределенность эксперта. Клонирование поведения стремится воспроизвести это распределение, а не одно детерминированное действие.
Обобщение
Способность клонированной модели правильно работать на состояниях, не виденных во время обучения, что имеет решающее значение для надежного применения клонирования поведения. Хорошее обобщение предотвращает переобучение на конкретных демонстрациях.
Переобучение
Явление, при котором модель идеально обучается на обучающих демонстрациях, но неспособна обобщиться на новые ситуации, что ограничивает эффективность поведенческого клонирования. Эта проблема усугубляется корреляцией данных в траекториях.
Офлайн-обучение
Парадигма, в которой агент обучается исключительно на основе фиксированного набора данных без взаимодействия со средой, что является основной характеристикой поведенческого клонирования. Этот подход устраняет затраты и риски, связанные с активным исследованием.
Коррекция ошибок
Способность системы поведенческого клонирования восстанавливаться после совершения ошибки, часто ограниченная из-за отсутствия опыта в некорректных состояниях. Это ограничение мотивирует использование гибридных техник с обучением с подкреплением.
Обучение с подкреплением
Парадигма обучения, в которой агент максимизирует совокупную награду методом проб и ошибок, часто комбинируется с поведенческим клонированием для повышения робастности. Этот подход позволяет исправлять ошибки, отсутствующие в демонстрациях.
Обратное имитационное обучение
Процесс вывода функции вознаграждения или лежащих в основе намерений из экспертных демонстраций, альтернатива прямому поведенческому клонированию. Этот подход обеспечивает лучшую обобщаемость, но сложнее в реализации.
Имитационное обучение с подкреплением
Семейство алгоритмов, объединяющих имитационное обучение и обучение с подкреплением для извлечения преимуществ обоих подходов, использующих демонстрации в качестве направляющей для исследования. Эти методы улучшают робастность и коррекцию ошибок.
Расхождение стратегий
Явление, при котором изученная стратегия постепенно отклоняется от экспертной стратегии при взаимодействии со средой, что ставит под угрозу производительность. Это расхождение является основным ограничением чистого поведенческого клонирования.
Стабильность обучения
Свойство алгоритма обучения сходиться предсказуемым образом к удовлетворительному решению без колебаний или расхождения, что критически важно для систем поведенческого клонирования. Стабильность зависит от качества и покрытия демонстраций.
Передача знаний
Способность применять навыки, полученные путем поведенческого клонирования, к похожим, но другим задачам или средам, что необходимо для масштабируемости. Успешная передача требует надежного и инвариантного представления состояний.