Обучение с обратным подкреплением на основе моделей

📖

термины

Модельное обучение с обратным подкреплением

Подход, который выводит функцию вознаграждения из экспертных демонстраций, используя модель среды для генерации и оценки правдоподобных альтернативных траекторий.

📖

термины

Вывод функции вознаграждения

Процесс оценки лежащей в основе функции вознаграждения агента путем наблюдения за его поведением, часто формулируемый как задача оптимизации правдоподобия демонстрируемых траекторий.

📖

термины

Модель динамики окружающей среды

Изученная модель, которая предсказывает следующее состояние и вознаграждение при наличии текущего состояния и действия, используемая для моделирования траекторий в обучении с подкреплением на основе модели.

📖

термины

Генерация правдоподобных траекторий

Использование модели среды для создания последовательностей состояний-действий, которые согласуются с динамикой системы и наблюдаемыми политиками, служащих синтетическими данными для вывода.

📖

термины

Смещение имитации

Склонность агента, обученного обратным подкреплением, к чрезмерному имитации демонстрируемых действий без обобщения на невидимые состояния, что требует использования моделей для исследования за пределами экспертных данных.

📖

термины

Оптимизация правдоподобия траекторий

Метод настройки функции вознаграждения для максимизации вероятности того, что наблюдаемые экспертные траектории являются оптимальными при выведенном вознаграждении.

📖

термины

Неоднозначная функция вознаграждения

Проблема, при которой несколько различных функций вознаграждения могут одинаково хорошо объяснять одни и те же экспертные демонстрации, требуя ограничений или априорной информации для разрешения неоднозначности.

📖

термины

Набор синтетических траекторий

Коллекция траекторий, сгенерированных моделью среды, используемая для обогащения демонстрационных данных и улучшения надежности вывода вознаграждения.

📖

термины

Erreur de Modèle Environnemental

Écart entre la dynamique réelle de l'environnement et celle prédite par le modèle appris, qui peut biaiser l'inférence de la récompense si non corrigée.

📖

термины

Rétropropagation à travers le Modèle

Technique de calcul des gradients de la fonction de récompense par rapport à ses paramètres en propageant l'erreur à travers le modèle de dynamique différentiable.

📖

термины

Espace des Politiques

Ensemble de toutes les politiques possibles π(a|s) que l'agent peut adopter, dans lequel l'inférence par renforcement inverse cherche à identifier la politique optimale compatible avec les démonstrations.

📖

термины

Planification Monte Carlo sur Modèle

Méthode utilisant des simulations stochastiques du modèle environnemental pour évaluer différentes fonctions de récompense candidates et sélectionner celle qui explique le mieux les démonstrations.

📖

термины

Fonction de Coût de Régularisation

Terme ajouté à l'objectif d'inférence pour pénaliser les fonctions de récompense complexes ou irréalistes, favorisant des solutions plus simples et généralisables.

📖

термины

Distribution Postérieure sur les Récompenses

Approche bayésienne qui maintient une distribution de probabilité sur les fonctions de récompense possibles plutôt qu'une estimation ponctuelle, permettant de quantifier l'incertitude.

📖

термины

Horizon de Simulation

Nombre maximal d'étapes futures simulées par le modèle environnemental lors de la génération de trajectoires, influençant l'équilibre entre exploration et coût computationnel.

📖

термины

Échantillonnage d'Importance Basé sur Modèle

Technique utilisant le modèle pour générer des trajectoires depuis une distribution propositionnelle, puis les pondérant par leur vraisemblance sous la politique experte.

📖

термины

Метод Максимальной Энтропии

Принцип вывода, который выбирает наименее информативную (с максимальной энтропией) функцию вознаграждения среди тех, которые объясняют демонстрации, избегая переобучения.

Глоссарий ИИ

Модельное обучение с обратным подкреплением

Вывод функции вознаграждения

Модель динамики окружающей среды

Генерация правдоподобных траекторий

Смещение имитации

Оптимизация правдоподобия траекторий

Неоднозначная функция вознаграждения

Набор синтетических траекторий

Erreur de Modèle Environnemental

Rétropropagation à travers le Modèle

Espace des Politiques

Planification Monte Carlo sur Modèle

Fonction de Coût de Régularisation

Distribution Postérieure sur les Récompenses

Horizon de Simulation

Échantillonnage d'Importance Basé sur Modèle

Метод Максимальной Энтропии

Результаты не найдены