Meta-reinforcement Learning
Proximal Meta-Policy Optimization (ProMP)
Algorithme méta-apprentissage basé sur PPO qui maintient un ensemble de méta-paramètres optimisés pour une adaptation rapide aux nouvelles tâches par renforcement.
← Geri