MARL Centralizado-Descentralizado
Multi-Agent Proximal Policy Optimization (MAPPO)
Extensão do PPO para ambientes multiagentes usando críticos centralizados para avaliar as políticas descentralizadas individuais. O MAPPO mantém a estabilidade de treinamento do PPO enquanto gerencia a não-estacionariedade multiagentes.
← Voltar