Разностное обучение по времени
След элигибильности
Механизм памяти, который отслеживает недавно посещенные состояния или действия, позволяя распространять ошибку TD обратно во времени для ускорения обучения.
← Назад