Глоссарий ИИ
Полный словарь искусственного интеллекта
Модельное обучение с обратным подкреплением
Подход, который выводит функцию вознаграждения из экспертных демонстраций, используя модель среды для генерации и оценки правдоподобных альтернативных траекторий.
Вывод функции вознаграждения
Процесс оценки лежащей в основе функции вознаграждения агента путем наблюдения за его поведением, часто формулируемый как задача оптимизации правдоподобия демонстрируемых траекторий.
Модель динамики окружающей среды
Изученная модель, которая предсказывает следующее состояние и вознаграждение при наличии текущего состояния и действия, используемая для моделирования траекторий в обучении с подкреплением на основе модели.
Генерация правдоподобных траекторий
Использование модели среды для создания последовательностей состояний-действий, которые согласуются с динамикой системы и наблюдаемыми политиками, служащих синтетическими данными для вывода.
Смещение имитации
Склонность агента, обученного обратным подкреплением, к чрезмерному имитации демонстрируемых действий без обобщения на невидимые состояния, что требует использования моделей для исследования за пределами экспертных данных.
Оптимизация правдоподобия траекторий
Метод настройки функции вознаграждения для максимизации вероятности того, что наблюдаемые экспертные траектории являются оптимальными при выведенном вознаграждении.
Неоднозначная функция вознаграждения
Проблема, при которой несколько различных функций вознаграждения могут одинаково хорошо объяснять одни и те же экспертные демонстрации, требуя ограничений или априорной информации для разрешения неоднозначности.
Набор синтетических траекторий
Коллекция траекторий, сгенерированных моделью среды, используемая для обогащения демонстрационных данных и улучшения надежности вывода вознаграждения.
Erreur de Modèle Environnemental
Écart entre la dynamique réelle de l'environnement et celle prédite par le modèle appris, qui peut biaiser l'inférence de la récompense si non corrigée.
Rétropropagation à travers le Modèle
Technique de calcul des gradients de la fonction de récompense par rapport à ses paramètres en propageant l'erreur à travers le modèle de dynamique différentiable.
Espace des Politiques
Ensemble de toutes les politiques possibles π(a|s) que l'agent peut adopter, dans lequel l'inférence par renforcement inverse cherche à identifier la politique optimale compatible avec les démonstrations.
Planification Monte Carlo sur Modèle
Méthode utilisant des simulations stochastiques du modèle environnemental pour évaluer différentes fonctions de récompense candidates et sélectionner celle qui explique le mieux les démonstrations.
Fonction de Coût de Régularisation
Terme ajouté à l'objectif d'inférence pour pénaliser les fonctions de récompense complexes ou irréalistes, favorisant des solutions plus simples et généralisables.
Distribution Postérieure sur les Récompenses
Approche bayésienne qui maintient une distribution de probabilité sur les fonctions de récompense possibles plutôt qu'une estimation ponctuelle, permettant de quantifier l'incertitude.
Horizon de Simulation
Nombre maximal d'étapes futures simulées par le modèle environnemental lors de la génération de trajectoires, influençant l'équilibre entre exploration et coût computationnel.
Échantillonnage d'Importance Basé sur Modèle
Technique utilisant le modèle pour générer des trajectoires depuis une distribution propositionnelle, puis les pondérant par leur vraisemblance sous la politique experte.
Метод Максимальной Энтропии
Принцип вывода, который выбирает наименее информативную (с максимальной энтропией) функцию вознаграждения среди тех, которые объясняют демонстрации, избегая переобучения.