Неявное Q-обучение (IQL)
Неявная функция преимущества
Расширение IQL, которое оценивает относительные преимущества действий без явной максимизации, позволяя более надежный выбор действий в офлайн-контекстах.
← Назад