Offline Multi-Task Reinforcement Learning

📖

termes

Offline Multi-Task Reinforcement Learning

Paradigme d'apprentissage où plusieurs politiques pour différentes tâches sont apprises simultanément à partir de datasets fixes batch sans interaction avec l'environnement.

📖

termes

Batch Multi-Task Learning

Approche où l'agent apprend à résoudre multiples tâches en utilisant uniquement des données pré-collectées, sans exploration en ligne pendant l'entraînement.

📖

termes

Shared Dataset Policy Optimization

Technique d'optimisation de politiques multiples utilisant un pool commun de données d'expérience pour améliorer l'efficacité d'apprentissage entre tâches.

📖

termes

Task-Agnostic Representation Learning

Processus d'apprentissage de représentations d'état-action généralisables à partir de données batch sans connaissance spécifique des tâches futures.

📖

termes

Conservative Multi-Task Policy Optimization

Méthode garantissant que les politiques multi-tâches ne dévient pas significativement du comportement observé dans le dataset batch pour éviter les distributions de sortie de support.

📖

termes

Multi-Task Batch Constrained Q-Learning

Extension du BCQ au contexte multi-tâches où la fonction Q est contrainte par les données batch tout en partageant des connaissances entre tâches.

📖

termes

Multi-Task Distributional RL

Framework modélisant la distribution complète des retours plutôt que leur espérance pour chaque tâche dans un contexte offline multi-tâches.

📖

termes

Offline Multi-Task Meta-Learning

Apprentissage de méta-connaissances à partir de datasets batch multi-tâches pour permettre une adaptation rapide à de nouvelles tâches avec peu de données.

📖

termes

Task Decoupling

Technique séparant les représentations spécifiques aux tâches des connaissances partagées pour optimiser l'apprentissage offline multi-tâches.

📖

termes

Multi-Task Offline Evaluation Metrics

Mesures spécifiques évaluant la performance des politiques multi-tâches sans interaction, comme le FQE multi-tâches ou l'importance sampling pondéré.

📖

termes

Task-Specific Policy Heads

Architecture réseau avec tronc commun partagé et têtes de sortie distinctes pour chaque tâche dans l'apprentissage offline multi-tâches.

📖

termes

Multi-Task Offline Data Efficiency

Mesure de l'efficacité avec laquelle les données batch sont utilisées pour apprendre multiples politiques par rapport à l'apprentissage mono-tâche.

📖

termes

Cross-Task Knowledge Transfer

Processus de transfert automatique de connaissances utiles entre tâches différentes lors de l'apprentissage à partir de datasets batch partagés.

📖

termes

Multi-Task Offline Value Function Factorization

Décomposition de la fonction de valeur en composantes partagées et spécifiques aux tâches pour améliorer l'apprentissage offline multi-tâches.

📖

termes

Task Clustering in Offline Settings

Regroupement automatique de tâches similaires basé sur leurs données batch pour optimiser le partage de connaissances et l'allocation des ressources.

📖

termes

Multi-Task Offline Exploration-Exploitation

Dilemme adapté au contexte offline où l'équilibre entre l'utilisation de données existantes et l'extrapolation contrôlée est géré pour plusieurs tâches.

📖

termes

Shared Dynamics Model

Modèle de transition unique appris à partir de données batch multi-tâches capturant les dynamiques communes et spécifiques des environnements.

📖

termes

Multi-Task Offline Curriculum Learning

Séquencement automatique des tâches pendant l'entraînement offline basé sur leur difficulté et interdépendance pour optimiser l'apprentissage.

Glossaire IA