Агрегация данных DAgger
Распределение траекторий
Набор последовательностей состояний и действий, которые агент генерирует, следуя своей текущей политике. DAgger стремится согласовать это распределение с тем, которое создается оптимальной экспертной политикой.
← Назад