Модельное обучение на основе любопытства

📖

термины

Modèle de Dynamique

Un modèle appris par l'agent qui prédit l'évolution de l'environnement, c'est-à-dire le prochain état ou la prochaine observation étant donné l'état actuel et l'action entreprise. La qualité de ce modèle est centrale pour l'apprentissage par curiosité model-based.

📖

термины

Module de Curiosité Intrinsèque (ICM)

Une architecture de réseau de neurones spécifique qui combine un module de prédiction de l'état suivant dans un espace de caractéristiques et un module inverse pour prédire l'action. L'erreur de prédiction du module avant est utilisée comme récompense intrinsèque.

📖

термины

Exploration par Curiosité

Une stratégie d'exploration où un agent est motivé à visiter des états de l'environnement qui maximisent son apprentissage, mesuré par des signaux internes comme l'erreur de prédiction. L'agent cherche activement ce qu'il ne sait pas.

📖

термины

Problème de la Télévision Aléatoire

Un défi majeur en apprentissage par curiosité où un agent peut être obsédé par des sources d'entropie imprévisibles mais inutiles, comme un écran de statique télévisuel. Cela conduit à une récompense intrinsèque élevée sans apprentissage significatif sur la dynamique de l'environnement.

📖

термины

Espace des États Latents

Une représentation compressée et abstraite de l'environnement, apprise par un réseau de neurones, dans laquelle le modèle de dynamique apprend à prédire. Travailler dans cet espace réduit la complexité et aide à se concentrer sur les caractéristiques pertinentes pour la prédiction.

📖

термины

Façonnage de la Récompense Intrinsèque

Le processus de conception et de pondération du signal de récompense intrinsèque, souvent en le combinant avec la récompense extrinsèque de la tâche. Un bon façonnage est crucial pour équilibrer exploration et exploitation.

📖

термины

Apprentissage du Modèle

Le processus par lequel un agent de MBRL améliore son modèle de dynamique en interagissant avec l'environnement. Ce processus est itératif : le modèle est utilisé pour explorer, et les nouvelles données collectées servent à affiner le modèle.

📖

термины

Surprise Modale

Un concept désignant une situation où l'expérience de l'agent contredit les attentes de son modèle interne du monde. Dans les systèmes model-based, la surprise est directement mesurée par l'erreur de prédiction du modèle.

📖

термины

Сеть предсказания

Нейронный компонент динамической модели, отвечающий за генерацию предсказания следующего скрытого состояния. Его производительность, оцениваемая функцией потерь, напрямую определяет сигнал любопытства.

📖

термины

Фреймворк внутреннего обучения с подкреплением

Общая структура для обучения с подкреплением, в которой целевая функция агента является взвешенной суммой внешнего вознаграждения (связанного с задачей) и внутреннего вознаграждения (связанного с исследованием).

📖

термины

Исследование путем максимизации вариационной информации (VIME)

Формальный метод, использующий вариационный вывод для максимизации информации, полученной о параметрах модели окружающей среды. Он обеспечивает теоретически обоснованную меру любопытства, которая избегает некоторых ловушек.

📖

термины

Граница любопытства

Механизм или теоретическое ограничение, направленное на ограничение любопытства агента, чтобы направить его на аспекты окружающей среды, которые одновременно неизвестны и контролируемы/изучаемы. Это помогает смягчить проблему случайного телевизора.

Глоссарий ИИ

Modèle de Dynamique

Module de Curiosité Intrinsèque (ICM)

Exploration par Curiosité

Problème de la Télévision Aléatoire

Espace des États Latents

Façonnage de la Récompense Intrinsèque

Apprentissage du Modèle

Surprise Modale

Сеть предсказания

Фреймворк внутреннего обучения с подкреплением

Исследование путем максимизации вариационной информации (VIME)

Граница любопытства

Результаты не найдены