Офлайн многозадачное обучение с подкреплением

📖

термины

Офлайн многозадачное обучение с подкреплением

Парадигма обучения, при которой несколько политик для различных задач изучаются одновременно из фиксированных пакетных наборов данных без взаимодействия со средой.

📖

термины

Пакетное многозадачное обучение

Подход, при котором агент учится решать множественные задачи, используя только предварительно собранные данные, без онлайн-исследования во время обучения.

📖

термины

Оптимизация политик на общем наборе данных

Техника оптимизации множественных политик с использованием общего пула данных опыта для повышения эффективности обучения между задачами.

📖

термины

Обучение представлений, не зависящих от задачи

Процесс обучения обобщаемых представлений состояний и действий из пакетных данных без знания специфики будущих задач.

📖

термины

Консервативная многозадачная оптимизация политик

Метод, гарантирующий, что многозадачные политики не отклоняются значительно от поведения, наблюдаемого в пакетном наборе данных, чтобы избежать распределений выходных данных за пределами поддержки.

📖

термины

Многозадачное Q-обучение с ограничениями по пакету

Расширение BCQ в многозадачном контексте, где Q-функция ограничена пакетными данными при одновременном обмене знаниями между задачами.

📖

термины

Многозадачное распределительное обучение с подкреплением

Фреймворк, моделирующий полное распределение возвратов, а не их математическое ожидание для каждой задачи в офлайн многозадачном контексте.

📖

термины

Офлайн многозадачное мета-обучение

Обучение мета-знаниям из многозадачных пакетных наборов данных для быстрой адаптации к новым задачам с малым количеством данных.

📖

термины

Разделение задач

Техника разделения представлений, специфичных для задач, от общих знаний для оптимизации многозадачного офлайн-обучения.

📖

термины

Метрики многозадачного офлайн-оценивания

Специфические меры для оценки производительности многозадачных политик без взаимодействия, такие как многозадачный FQE или взвешенный importance sampling.

📖

термины

Специфичные для задач головы политик

Сетевая архитектура с общим базовым блоком и отдельными выходными головками для каждой задачи в многозадачном офлайн-обучении.

📖

термины

Эффективность многозадачных офлайн-данных

Мера эффективности использования пакетных данных для обучения множественных политик по сравнению с однозадачным обучением.

📖

термины

Межзадачный перенос знаний

Процесс автоматического переноса полезных знаний между различными задачами при обучении на общих пакетных наборах данных.

📖

термины

Факторизация многозадачной офлайн-функции ценности

Разложение функции ценности на общие и специфичные для задач компоненты для улучшения многозадачного офлайн-обучения.

📖

термины

Кластеризация задач в офлайн-настройках

Автоматическая группировка схожих задач на основе их пакетных данных для оптимизации обмена знаниями и распределения ресурсов.

📖

термины

Многозадачное офлайн-исследование-использование

Дилемма, адаптированная к офлайн-контексту, где баланс между использованием существующих данных и контролируемой экстраполяцией управляется для нескольких задач.

📖

термины

Модель общих динамик

Единая модель перехода, обученная на пакетных многозадачных данных, захватывающая общие и специфические динамики сред.

📖

термины

Многозадачное офлайн обучение по учебному плану

Автоматическое упорядочивание задач во время офлайн обучения на основе их сложности и взаимозависимости для оптимизации процесса обучения.

Глоссарий ИИ