মডেল-ভিত্তিক গভীর RL
Trajectory Optimization
Optimisation directe des séquences d'états-actions en utilisant le gradient du modèle pour trouver des trajectoires optimales, particulièrement efficace pour les systèmes continus.
← ফিরে যান