MARL Continu
Многопользовательский глубокий детерминированный градиент политики (MADDPG)
Алгоритм CTDE, расширяющий DDPG для многопользовательских сред, использующий централизованные критические сети и децентрализованные акторы для обучения в непрерывных пространствах действий.
← Назад