Обучение с подкреплением для оптимизации

📖

термины

Политика принятия решений

Стратегия или отображение, определяющее действие, которое необходимо предпринять в каждом возможном состоянии, представляющее поведение агента в процессе обучения с подкреплением.

📖

термины

Проблема многорукого бандита

Проблема последовательной оптимизации, в которой агент должен выбирать среди нескольких вариантов с неизвестными вознаграждениями, чтобы максимизировать совокупное вознаграждение с течением времени.

📖

термины

Сумма будущих дисконтированных вознаграждений, которую агент стремится максимизировать, часто рассчитываемая с использованием коэффициента дисконтирования для придания меньшего веса отдаленным вознаграждениям.

📖

термины

Алгоритм SARSA

Алгоритм обучения с подкреплением по политике, который обновляет Q-значения на основе последовательности Состояние-Действие-Вознаграждение-Состояние-Действие, в отличие от Q-обучения.

📖

термины

Глубокая Q-сеть

Архитектура глубокой нейронной сети, используемая для аппроксимации Q-функции в сложных пространствах состояний, сочетающая глубокое обучение и Q-обучение.

📖

термины

Глубокое обучение с подкреплением

Подход, интегрирующий глубокие нейронные сети в обучение с подкреплением для обработки пространств состояний или действий высокой размерности.

📖

термины

Эпсилон-жадная политика

Стратегия выбора действия, при которой с вероятностью ε агент исследует (выбирает случайное действие), а с вероятностью 1-ε эксплуатирует (выбирает лучшее известное действие).

📖

термины

Оптимизация политики

Класс методов в обучении с подкреплением, которые напрямую оптимизируют политику без использования функции ценности, часто использующий методы градиента политики.

📖

термины

Алгоритм Градиента Политики

Метод оптимизации, который напрямую корректирует параметры политики, следуя градиенту ожидаемого вознаграждения по отношению к этим параметрам.

📖

термины

МногоАгентное Обучение с Подкреплением

Расширение обучения с подкреплением, где несколько агентов обучаются одновременно, часто в условиях конкуренции или кооперации, в общей среде.

📖

термины

Память Воспроизведения Опыта

Структура данных, хранящая переходы (состояние, действие, вознаграждение, следующее состояние) для повторной выборки во время обучения, повышая эффективность использования данных.

📖

термины

Алгоритм Актор-Критик

Архитектура, сочетающая актора, который выбирает действия согласно политике, и критика, который оценивает эти действия, обеспечивая более стабильное и эффективное обучение.

Глоссарий ИИ

Политика принятия решений

Проблема многорукого бандита

Совокупное вознаграждение

Алгоритм SARSA

Глубокая Q-сеть

Глубокое обучение с подкреплением

Эпсилон-жадная политика

Оптимизация политики

Алгоритм Градиента Политики

МногоАгентное Обучение с Подкреплением

Память Воспроизведения Опыта

Алгоритм Актор-Критик

Результаты не найдены