Многошаговое распределительное обучение с подкреплением
Чувствительный к риску RL
Расширение распределительного обучения с подкреплением, которое оптимизирует специфические меры риска (CVaR, дисперсия), а не только математическое ожидание.
← Назад