Глубокий Детерминированный Градиент Политики (DDPG)
Целевые сети (Target Networks)
Дублирующиеся нейронные сети с медленно обновляемыми весами для стабилизации обучения за счет предоставления более согласованных целей.
← Назад