Активное обучение с подкреплением

📖

термины

Активное обучение с подкреплением

Гибридная методология, объединяющая принципы активного обучения и обучения с подкреплением для оптимизации выбора образцов для аннотирования.

📖

термины

Политика выбора образцов

Детерминированная или стохастическая стратегия, определяющая, какие данные следует запрашивать для аннотирования, чтобы максимизировать улучшение модели в рамках бюджетных ограничений.

📖

термины

Агент обучения с подкреплением

Алгоритмическая сущность, которая учится принимать оптимальные решения по выбору образцов посредством взаимодействия со средой аннотирования.

📖

термины

Функция вознаграждения

Сигнал, количественно определяющий полезность каждого действия по выбору образца, обычно основанный на улучшении производительности модели.

📖

термины

Значение «состояние-действие»

Функция Q(s,a), оценивающая ожидаемую совокупную награду при выборе действия a из состояния s и следовании оптимальной политике.

📖

термины

Глубокое обучение с подкреплением

Расширение обучения с подкреплением, использующее глубокие нейронные сети для аппроксимации функций ценности или политик.

📖

термины

Активное обучение на основе неопределенности

Стратегия, при которой агент преимущественно выбирает образцы, по которым модель демонстрирует наибольшую предсказательную неопределенность.

📖

термины

Стратегический выбор образцов

Оптимизированный процесс принятия решений, направленный на выявление подмножеств данных, максимизирующих информационный выигрыш на единицу затрат на аннотирование.

📖

термины

Обучение с подкреплением вне стратегии

Метод, позволяющий изучить оптимальную стратегию, следуя другой стратегии поведения, полезный для гибкого исследования.

📖

термины

Онлайн-обучение с подкреплением

Парадигма, в которой агент обучается и выбирает выборки одновременно во время аннотирования, динамически адаптируя свою стратегию.

📖

термины

Баланс обучения и аннотации

Оптимизация компромисса между временем, затрачиваемым на интеллектуальный отбор, и потенциальным приростом производительности модели.

📖

термины

Стратегия сбора данных

Систематический план действий по выявлению и сбору наиболее релевантных данных для аннотации в соответствии с заранее определенными критериями.

📖

термины

Мультиагентное обучение с подкреплением

Расширение, в котором несколько агентов сотрудничают или соревнуются для совместной оптимизации стратегии выбора выборок.

📖

термины

Активный алгоритм Q-обучения

Вариант Q-обучения, адаптированный для активного обучения, в котором действия соответствуют выбору выборок для аннотации.

📖

термины

Стратегия направленного исследования

Стратегия исследования, ориентированная на области пространства данных, потенциально наиболее информативные для модели.

📖

термины

Байесовское обучение с подкреплением

Метод, интегрирующий неопределенность в оценку функций ценности для более надежного принятия решений при выборе выборок.

Глоссарий ИИ