Глоссарий ИИ
Полный словарь искусственного интеллекта
Активное обучение с подкреплением
Гибридная методология, объединяющая принципы активного обучения и обучения с подкреплением для оптимизации выбора образцов для аннотирования.
Политика выбора образцов
Детерминированная или стохастическая стратегия, определяющая, какие данные следует запрашивать для аннотирования, чтобы максимизировать улучшение модели в рамках бюджетных ограничений.
Агент обучения с подкреплением
Алгоритмическая сущность, которая учится принимать оптимальные решения по выбору образцов посредством взаимодействия со средой аннотирования.
Функция вознаграждения
Сигнал, количественно определяющий полезность каждого действия по выбору образца, обычно основанный на улучшении производительности модели.
Значение «состояние-действие»
Функция Q(s,a), оценивающая ожидаемую совокупную награду при выборе действия a из состояния s и следовании оптимальной политике.
Глубокое обучение с подкреплением
Расширение обучения с подкреплением, использующее глубокие нейронные сети для аппроксимации функций ценности или политик.
Активное обучение на основе неопределенности
Стратегия, при которой агент преимущественно выбирает образцы, по которым модель демонстрирует наибольшую предсказательную неопределенность.
Стратегический выбор образцов
Оптимизированный процесс принятия решений, направленный на выявление подмножеств данных, максимизирующих информационный выигрыш на единицу затрат на аннотирование.
Обучение с подкреплением вне стратегии
Метод, позволяющий изучить оптимальную стратегию, следуя другой стратегии поведения, полезный для гибкого исследования.
Онлайн-обучение с подкреплением
Парадигма, в которой агент обучается и выбирает выборки одновременно во время аннотирования, динамически адаптируя свою стратегию.
Баланс обучения и аннотации
Оптимизация компромисса между временем, затрачиваемым на интеллектуальный отбор, и потенциальным приростом производительности модели.
Стратегия сбора данных
Систематический план действий по выявлению и сбору наиболее релевантных данных для аннотации в соответствии с заранее определенными критериями.
Мультиагентное обучение с подкреплением
Расширение, в котором несколько агентов сотрудничают или соревнуются для совместной оптимизации стратегии выбора выборок.
Активный алгоритм Q-обучения
Вариант Q-обучения, адаптированный для активного обучения, в котором действия соответствуют выбору выборок для аннотации.
Стратегия направленного исследования
Стратегия исследования, ориентированная на области пространства данных, потенциально наиболее информативные для модели.
Байесовское обучение с подкреплением
Метод, интегрирующий неопределенность в оценку функций ценности для более надежного принятия решений при выборе выборок.