Обучение через дифференциацию моделей
Градиент стратегии через модель
Метод вычисления градиентов стратегии путем распространения вознаграждений через дифференцируемую модель среды.
← НазадМетод вычисления градиентов стратегии путем распространения вознаграждений через дифференцируемую модель среды.
← Назад