Офлайн многозадачное обучение с подкреплением
Консервативная многозадачная оптимизация политик
Метод, гарантирующий, что многозадачные политики не отклоняются значительно от поведения, наблюдаемого в пакетном наборе данных, чтобы избежать распределений выходных данных за пределами поддержки.
← Назад