Глоссарий ИИ
Полный словарь искусственного интеллекта
Извлечение Неявных Целей
Процесс идентификации и формализации необъявленных целей на основе анализа последовательностей действий или существующих планов. Эта техника раскрывает глубинные мотивации, которые направляют решения в сложных системах планирования.
Выведенная Функция Вознаграждения
Математическая функция, восстановленная с помощью IRL, которая количественно оценивает ценность состояний или действий в среде, основанная на экспертных демонстрациях. Служит прокси для истинных целей наблюдаемой системы планирования.
Марковское Планирование
Теоретическая основа, в которой будущие решения зависят только от текущего состояния, без памяти о предыдущих состояниях, используемая как фундамент для применения IRL в системах планирования. Это свойство позволяет эффективно моделировать оптимальные политики.
Демонстрационная Траектория
Полная последовательность наблюдаемых состояний-действий, представляющая экспертное или оптимальное поведение, служащая обучающими данными для алгоритма IRL. Эти траектории инкапсулируют неявные предпочтения и цели демонстратора.
Смещение Распределения Состояний
Феномен в IRL, когда состояния, посещенные в демонстрациях, не являются репрезентативными для всех возможных состояний, требующий техник коррекции для избежания смещенного вывода целей. Это смещение должно компенсироваться для надежного обобщения.
Обучение на Парных Предпочтениях
Вариант IRL, где обучающийся получает сравнения между различными траекториями вместо полных демонстраций, позволяя выводить цели из качественных суждений. Этот метод снижает потребность в исчерпывающих экспертных данных.
Обратная Инженерия Политики
Обратный процесс традиционного планирования, который заключается в декомпозиции существующей политики для извлечения лежащей в основе целевой функции. Эта техника важна для понимания и улучшения унаследованных систем планирования.
Стоимость Максимальной Энтропии
Принцип вывода в IRL, который выбирает наиболее неопределенное распределение политик (максимальная энтропия) среди тех, которые объясняют демонстрации, избегая переобучения на наблюдаемых примерах. Этот подход способствует более надежным и обобщаемым решениям.
Планирование, управляемое IRL
Гибридная архитектура, в которой IRL непрерывно предоставляет обновления целей для улучшения производительности системы планирования в реальном времени. Эта синергия позволяет динамически адаптироваться к изменениям среды или целей.
Декодирование намерений в мультиагентных системах
Расширение IRL для систем с взаимодействием нескольких агентов, требующее одновременного вывода индивидуальных и коллективных функций вознаграждения. Эта дополнительная сложность моделирует стратегические игры и сотрудничество.
Метаобучение в IRL
Подход метаобучения, при котором система приобретает способность быстро выводить новые функции вознаграждения по нескольким демонстрациям, основываясь на предыдущем опыте с аналогичными задачами. Это ускорение критически важно для быстрой адаптации.
Кросс-валидация целей
Методология оценки в IRL, которая проверяет обобщаемость выведенных целей на ненаблюдаемых траекториях, обеспечивая, что функция вознаграждения действительно захватывает намерения, а не шум. Эта валидация гарантирует robustness модели.
Иерархическая декомпозиция целей
Техника IRL, которая структурирует сложные цели в иерархию более простых подцелей, облегчая вывод и интерпретируемость. Этот подход отражает естественную структуру реальных проблем планирования.
Перенос целей между доменами
Способность IRL адаптировать выведенные цели в одном домене для эффективного применения в сходных, но различных средах. Эта переносимость необходима для избежания полного переобучения в каждой новой ситуации.