Офлайн многозадачное обучение с подкреплением
Оптимизация политик на общем наборе данных
Техника оптимизации множественных политик с использованием общего пула данных опыта для повышения эффективности обучения между задачами.
← Назад