قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
Offline Multi-Task Reinforcement Learning
Paradigme d'apprentissage où plusieurs politiques pour différentes tâches sont apprises simultanément à partir de datasets fixes batch sans interaction avec l'environnement.
Batch Multi-Task Learning
Approche où l'agent apprend à résoudre multiples tâches en utilisant uniquement des données pré-collectées, sans exploration en ligne pendant l'entraînement.
Shared Dataset Policy Optimization
Technique d'optimisation de politiques multiples utilisant un pool commun de données d'expérience pour améliorer l'efficacité d'apprentissage entre tâches.
Task-Agnostic Representation Learning
Processus d'apprentissage de représentations d'état-action généralisables à partir de données batch sans connaissance spécifique des tâches futures.
Conservative Multi-Task Policy Optimization
Méthode garantissant que les politiques multi-tâches ne dévient pas significativement du comportement observé dans le dataset batch pour éviter les distributions de sortie de support.
Multi-Task Batch Constrained Q-Learning
Extension du BCQ au contexte multi-tâches où la fonction Q est contrainte par les données batch tout en partageant des connaissances entre tâches.
Multi-Task Distributional RL
Framework modélisant la distribution complète des retours plutôt que leur espérance pour chaque tâche dans un contexte offline multi-tâches.
Offline Multi-Task Meta-Learning
Apprentissage de méta-connaissances à partir de datasets batch multi-tâches pour permettre une adaptation rapide à de nouvelles tâches avec peu de données.
Task Decoupling
Technique séparant les représentations spécifiques aux tâches des connaissances partagées pour optimiser l'apprentissage offline multi-tâches.
Multi-Task Offline Evaluation Metrics
Mesures spécifiques évaluant la performance des politiques multi-tâches sans interaction, comme le FQE multi-tâches ou l'importance sampling pondéré.
Task-Specific Policy Heads
Architecture réseau avec tronc commun partagé et têtes de sortie distinctes pour chaque tâche dans l'apprentissage offline multi-tâches.
Multi-Task Offline Data Efficiency
Mesure de l'efficacité avec laquelle les données batch sont utilisées pour apprendre multiples politiques par rapport à l'apprentissage mono-tâche.
Cross-Task Knowledge Transfer
Processus de transfert automatique de connaissances utiles entre tâches différentes lors de l'apprentissage à partir de datasets batch partagés.
Multi-Task Offline Value Function Factorization
Décomposition de la fonction de valeur en composantes partagées et spécifiques aux tâches pour améliorer l'apprentissage offline multi-tâches.
Task Clustering in Offline Settings
Regroupement automatique de tâches similaires basé sur leurs données batch pour optimiser le partage de connaissances et l'allocation des ressources.
Multi-Task Offline Exploration-Exploitation
Dilemme adapté au contexte offline où l'équilibre entre l'utilisation de données existantes et l'extrapolation contrôlée est géré pour plusieurs tâches.
Shared Dynamics Model
Modèle de transition unique appris à partir de données batch multi-tâches capturant les dynamiques communes et spécifiques des environnements.
Multi-Task Offline Curriculum Learning
Séquencement automatique des tâches pendant l'entraînement offline basé sur leur difficulté et interdépendance pour optimiser l'apprentissage.