Глоссарий ИИ
Полный словарь искусственного интеллекта
Политика принятия решений
Стратегия или отображение, определяющее действие, которое необходимо предпринять в каждом возможном состоянии, представляющее поведение агента в процессе обучения с подкреплением.
Проблема многорукого бандита
Проблема последовательной оптимизации, в которой агент должен выбирать среди нескольких вариантов с неизвестными вознаграждениями, чтобы максимизировать совокупное вознаграждение с течением времени.
Совокупное вознаграждение
Сумма будущих дисконтированных вознаграждений, которую агент стремится максимизировать, часто рассчитываемая с использованием коэффициента дисконтирования для придания меньшего веса отдаленным вознаграждениям.
Алгоритм SARSA
Алгоритм обучения с подкреплением по политике, который обновляет Q-значения на основе последовательности Состояние-Действие-Вознаграждение-Состояние-Действие, в отличие от Q-обучения.
Глубокая Q-сеть
Архитектура глубокой нейронной сети, используемая для аппроксимации Q-функции в сложных пространствах состояний, сочетающая глубокое обучение и Q-обучение.
Глубокое обучение с подкреплением
Подход, интегрирующий глубокие нейронные сети в обучение с подкреплением для обработки пространств состояний или действий высокой размерности.
Эпсилон-жадная политика
Стратегия выбора действия, при которой с вероятностью ε агент исследует (выбирает случайное действие), а с вероятностью 1-ε эксплуатирует (выбирает лучшее известное действие).
Оптимизация политики
Класс методов в обучении с подкреплением, которые напрямую оптимизируют политику без использования функции ценности, часто использующий методы градиента политики.
Алгоритм Градиента Политики
Метод оптимизации, который напрямую корректирует параметры политики, следуя градиенту ожидаемого вознаграждения по отношению к этим параметрам.
МногоАгентное Обучение с Подкреплением
Расширение обучения с подкреплением, где несколько агентов обучаются одновременно, часто в условиях конкуренции или кооперации, в общей среде.
Память Воспроизведения Опыта
Структура данных, хранящая переходы (состояние, действие, вознаграждение, следующее состояние) для повторной выборки во время обучения, повышая эффективность использования данных.
Алгоритм Актор-Критик
Архитектура, сочетающая актора, который выбирает действия согласно политике, и критика, который оценивает эти действия, обеспечивая более стабильное и эффективное обучение.