MARL Centralizado-Descentralizado
Gradiente de Política Determinística Profunda Multi-Agente (MADDPG)
Extensión de DDPG a entornos multi-agente utilizando aprendizaje centralizado-descentralizado con críticos centralizados y actores descentralizados. Cada agente aprende una política considerando las políticas de otros agentes como parte del entorno.
← Volver