Глоссарий ИИ
Полный словарь искусственного интеллекта
Временная разностная ошибка (TD-ошибка)
Разница между оценкой до и после обновления TD, служащая сигналом обучения для корректировки оценок значения в сторону лучшего предсказания будущих вознаграждений.
Бутстрэппинг
Техника, при которой оценка обновляется на основе другой текущей оценки, позволяющая онлайн-обучение и более быстрое, чем методы, ожидающие конечные вознаграждения.
Комбинация TD-MC
Гибридная стратегия, которая использует низкое смещение бутстрэппинга TD и низкую дисперсию методов Монте-Карло для более стабильного и эффективного обучения в эпизодических задачах.
Алгоритм TD(λ)
Обобщение методов TD, которое взвешивает n-кортежи будущих вознаграждений в соответствии с фактором следа элигибильности λ, позволяя непрерывный компромисс между TD(0) и Монте-Карло.
След элигибильности
Механизм памяти, который отслеживает недавно посещенные состояния или действия, позволяя распространять ошибку TD обратно во времени для ускорения обучения.
Компромисс между смещением и дисперсией
Фундаментальная дилемма, при которой уменьшение смещения (через бутстрэппинг TD) увеличивает дисперсию, и наоборот (через методы MC), требуя баланса для оптимальной производительности.
Обновление On-Policy
Процесс обучения, при котором оцениваемая политика совпадает с той, которая используется для генерации данных, как в алгоритмах SARSA и TD(λ) on-policy.
Функция значения состояния (V(s))
Оценка ожидаемого вознаграждения при выходе из состояния s и следовании заданной политике, служащая основой для обновлений TD для оценки политики.
Алгоритм Q-learning
Метод TD off-policy, который напрямую изучает оптимальную функцию ценности, используя наилучшее возможное действие в следующем состоянии, независимо от используемой политики.
Возвращаемое значение (Gt)
Дисконтированная сумма будущих вознаграждений, получаемых с шага времени t, являющаяся целевым значением для обучения в методах Монте-Карло и TD.
TD-цель
Оценка, используемая для обновления текущего значения в алгоритмах TD, сочетающая немедленное вознаграждение с оценкой будущего значения (напр.: R + γV(s')).