🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Политика принятия решений

Стратегия или отображение, определяющее действие, которое необходимо предпринять в каждом возможном состоянии, представляющее поведение агента в процессе обучения с подкреплением.

📖
термины

Проблема многорукого бандита

Проблема последовательной оптимизации, в которой агент должен выбирать среди нескольких вариантов с неизвестными вознаграждениями, чтобы максимизировать совокупное вознаграждение с течением времени.

📖
термины

Совокупное вознаграждение

Сумма будущих дисконтированных вознаграждений, которую агент стремится максимизировать, часто рассчитываемая с использованием коэффициента дисконтирования для придания меньшего веса отдаленным вознаграждениям.

📖
термины

Алгоритм SARSA

Алгоритм обучения с подкреплением по политике, который обновляет Q-значения на основе последовательности Состояние-Действие-Вознаграждение-Состояние-Действие, в отличие от Q-обучения.

📖
термины

Глубокая Q-сеть

Архитектура глубокой нейронной сети, используемая для аппроксимации Q-функции в сложных пространствах состояний, сочетающая глубокое обучение и Q-обучение.

📖
термины

Глубокое обучение с подкреплением

Подход, интегрирующий глубокие нейронные сети в обучение с подкреплением для обработки пространств состояний или действий высокой размерности.

📖
термины

Эпсилон-жадная политика

Стратегия выбора действия, при которой с вероятностью ε агент исследует (выбирает случайное действие), а с вероятностью 1-ε эксплуатирует (выбирает лучшее известное действие).

📖
термины

Оптимизация политики

Класс методов в обучении с подкреплением, которые напрямую оптимизируют политику без использования функции ценности, часто использующий методы градиента политики.

📖
термины

Алгоритм Градиента Политики

Метод оптимизации, который напрямую корректирует параметры политики, следуя градиенту ожидаемого вознаграждения по отношению к этим параметрам.

📖
термины

МногоАгентное Обучение с Подкреплением

Расширение обучения с подкреплением, где несколько агентов обучаются одновременно, часто в условиях конкуренции или кооперации, в общей среде.

📖
термины

Память Воспроизведения Опыта

Структура данных, хранящая переходы (состояние, действие, вознаграждение, следующее состояние) для повторной выборки во время обучения, повышая эффективность использования данных.

📖
термины

Алгоритм Актор-Критик

Архитектура, сочетающая актора, который выбирает действия согласно политике, и критика, который оценивает эти действия, обеспечивая более стабильное и эффективное обучение.

🔍

Результаты не найдены