মডেল-ভিত্তিক গভীর RL
Planning with Learned Models
Processus de recherche séquentiel utilisant le modèle appris pour évaluer différentes séquences d'actions futures et sélectionner l'optimum selon les prédictions de récompense.
← ফিরে যান