Разностное обучение по времени

📖

термины

Временная разностная ошибка (TD-ошибка)

Разница между оценкой до и после обновления TD, служащая сигналом обучения для корректировки оценок значения в сторону лучшего предсказания будущих вознаграждений.

📖

термины

Бутстрэппинг

Техника, при которой оценка обновляется на основе другой текущей оценки, позволяющая онлайн-обучение и более быстрое, чем методы, ожидающие конечные вознаграждения.

📖

термины

Комбинация TD-MC

Гибридная стратегия, которая использует низкое смещение бутстрэппинга TD и низкую дисперсию методов Монте-Карло для более стабильного и эффективного обучения в эпизодических задачах.

📖

термины

Алгоритм TD(λ)

Обобщение методов TD, которое взвешивает n-кортежи будущих вознаграждений в соответствии с фактором следа элигибильности λ, позволяя непрерывный компромисс между TD(0) и Монте-Карло.

📖

термины

След элигибильности

Механизм памяти, который отслеживает недавно посещенные состояния или действия, позволяя распространять ошибку TD обратно во времени для ускорения обучения.

📖

термины

Компромисс между смещением и дисперсией

Фундаментальная дилемма, при которой уменьшение смещения (через бутстрэппинг TD) увеличивает дисперсию, и наоборот (через методы MC), требуя баланса для оптимальной производительности.

📖

термины

Обновление On-Policy

Процесс обучения, при котором оцениваемая политика совпадает с той, которая используется для генерации данных, как в алгоритмах SARSA и TD(λ) on-policy.

📖

термины

Функция значения состояния (V(s))

Оценка ожидаемого вознаграждения при выходе из состояния s и следовании заданной политике, служащая основой для обновлений TD для оценки политики.

📖

термины

Алгоритм Q-learning

Метод TD off-policy, который напрямую изучает оптимальную функцию ценности, используя наилучшее возможное действие в следующем состоянии, независимо от используемой политики.

📖

термины

Возвращаемое значение (Gt)

Дисконтированная сумма будущих вознаграждений, получаемых с шага времени t, являющаяся целевым значением для обучения в методах Монте-Карло и TD.

📖

термины

TD-цель

Оценка, используемая для обновления текущего значения в алгоритмах TD, сочетающая немедленное вознаграждение с оценкой будущего значения (напр.: R + γV(s')).

Глоссарий ИИ

Временная разностная ошибка (TD-ошибка)

Бутстрэппинг

Комбинация TD-MC

Алгоритм TD(λ)

След элигибильности

Компромисс между смещением и дисперсией

Обновление On-Policy

Функция значения состояния (V(s))

Алгоритм Q-learning

Возвращаемое значение (Gt)

TD-цель

Результаты не найдены