التعلم المعزز العميق القائم على النموذج
Trajectory Optimization
Optimisation directe des séquences d'états-actions en utilisant le gradient du modèle pour trouver des trajectoires optimales, particulièrement efficace pour les systèmes continus.
← رجوع