Неявное Q-обучение (IQL)

📖

термины

Неявный оператор максимума

Математическая техника в IQL, которая избегает прямого вычисления максимума по действиям, используя консервативные верхние границы на основе поведенческого распределения.

📖

термины

Поведенческое распределение

Вероятностное распределение действий в офлайн-наборе данных, которое представляет политику, сгенерировавшую обучающие данные, используемые IQL.

📖

термины

Консервативная функция потерь

Математическая цель в IQL, которая штрафует завышенные оценки Q-значений вне поведенческого распределения для обеспечения стабильности обучения.

📖

термины

Неявная оценка Q-цели

Механизм IQL, который вычисляет целевые значения без явной максимизации, используя условные математические ожидания на основе поведенческого распределения.

📖

термины

Разделение ценности и политики

Фундаментальный принцип IQL, разделяющий обучение функции ценности и извлечение политики для избежания смещений оптимизации в офлайн-режиме.

📖

термины

Период офлайн-обучения

Фаза обучения, в которой IQL использует исключительно фиксированный набор данных без взаимодействия со средой, обеспечивая безопасность и вычислительную эффективность.

📖

термины

Взвешенная выборка по важности

Техника, используемая в IQL для коррекции смещения между поведенческим распределением и целевой политикой путем взвешивания образцов по их релевантности.

📖

термины

Ограниченная батчем оптимизация

Стратегия в IQL, которая ограничивает изучаемые действия близкими к наблюдаемым в наборе данных для избежания ненадежных экстраполяций.

📖

термины

Офлайн-смещение распределения

Основная проблема в IQL, где ограниченные и смещенные данные могут привести к некорректным оценкам, если не управляются должным образом консервативными механизмами.

📖

термины

Неявная функция преимущества

Расширение IQL, которое оценивает относительные преимущества действий без явной максимизации, позволяя более надежный выбор действий в офлайн-контекстах.

📖

термины

Регуляризация поведения

Механизм в IQL, который штрафует значительные отклонения от распределения поведения для поддержания стабильности и избежания рискованных действий.

📖

термины

Неявный критерий завершения

Метод в IQL для определения сходимости обучения на основе стабильности Q-оценок, а не явных метрик производительности.

📖

термины

Демонстрационный опыт

Предварительно собранный набор данных, используемый IQL как единственный источник обучения, обычно полученный от экспертов или существующих политик.

Глоссарий ИИ

Неявный оператор максимума

Поведенческое распределение

Консервативная функция потерь

Неявная оценка Q-цели

Разделение ценности и политики

Период офлайн-обучения

Взвешенная выборка по важности

Ограниченная батчем оптимизация

Офлайн-смещение распределения

Неявная функция преимущества

Регуляризация поведения

Неявный критерий завершения

Демонстрационный опыт

Результаты не найдены