Глоссарий ИИ
Полный словарь искусственного интеллекта
Неявный оператор максимума
Математическая техника в IQL, которая избегает прямого вычисления максимума по действиям, используя консервативные верхние границы на основе поведенческого распределения.
Поведенческое распределение
Вероятностное распределение действий в офлайн-наборе данных, которое представляет политику, сгенерировавшую обучающие данные, используемые IQL.
Консервативная функция потерь
Математическая цель в IQL, которая штрафует завышенные оценки Q-значений вне поведенческого распределения для обеспечения стабильности обучения.
Неявная оценка Q-цели
Механизм IQL, который вычисляет целевые значения без явной максимизации, используя условные математические ожидания на основе поведенческого распределения.
Разделение ценности и политики
Фундаментальный принцип IQL, разделяющий обучение функции ценности и извлечение политики для избежания смещений оптимизации в офлайн-режиме.
Период офлайн-обучения
Фаза обучения, в которой IQL использует исключительно фиксированный набор данных без взаимодействия со средой, обеспечивая безопасность и вычислительную эффективность.
Взвешенная выборка по важности
Техника, используемая в IQL для коррекции смещения между поведенческим распределением и целевой политикой путем взвешивания образцов по их релевантности.
Ограниченная батчем оптимизация
Стратегия в IQL, которая ограничивает изучаемые действия близкими к наблюдаемым в наборе данных для избежания ненадежных экстраполяций.
Офлайн-смещение распределения
Основная проблема в IQL, где ограниченные и смещенные данные могут привести к некорректным оценкам, если не управляются должным образом консервативными механизмами.
Неявная функция преимущества
Расширение IQL, которое оценивает относительные преимущества действий без явной максимизации, позволяя более надежный выбор действий в офлайн-контекстах.
Регуляризация поведения
Механизм в IQL, который штрафует значительные отклонения от распределения поведения для поддержания стабильности и избежания рискованных действий.
Неявный критерий завершения
Метод в IQL для определения сходимости обучения на основе стабильности Q-оценок, а не явных метрик производительности.
Демонстрационный опыт
Предварительно собранный набор данных, используемый IQL как единственный источник обучения, обычно полученный от экспертов или существующих политик.