Apprentissage par Renforcement Causal
Смешение в RL
Систематическое искажение оценки значений из-за ненаблюдаемых переменных, влияющих как на действия, так и на вознаграждения, которое каузальный подход стремится исправить.
← Назад