قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
Distributional Correction
Technique corrigeant le décalage entre la distribution des états-actions visités offline et celle générée par la politique apprise pendant le transfert online.
Fitted Q-Iteration
Algorithme itératif d'apprentissage offline approximant la fonction Q optimale en utilisant des régresseurs sur des batches de données expérimentales.
Safe Policy Transfer
Stratégie garantissant que les politiques transférées de l'offline à l'online maintiennent des performances minimales pendant la phase d'adaptation initiale.
Dataset Aggregation
Méthode itérative collectant et agrégeant des données offline successives pour améliorer progressivement les performances de la politique avant déploiement online.
Offline Policy Evaluation
Évaluation des performances d'une politique sans interaction directe avec l'environnement, cruciale pour sélectionner les meilleures politiques à transférer online.
Transfer Learning Gap
Mesure quantitative de la différence de performance entre une politique entraînée offline et ses performances initiales en environnement online.