Централизованно-децентрализованное MARL
Многoагентная проксимальная оптимизация политики (MAPPO)
Расширение PPO для многoагентных сред с использованием централизованных критиков для оценки децентрализованных индивидуальных политик. MAPPO сохраняет стабильность обучения PPO, одновременно управляя многoагентной нестационарностью.
← Назад