Неявное Q-обучение (IQL)
Ограниченная батчем оптимизация
Стратегия в IQL, которая ограничивает изучаемые действия близкими к наблюдаемым в наборе данных для избежания ненадежных экстраполяций.
← Назад