🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Временная разностная ошибка (TD-ошибка)

Разница между оценкой до и после обновления TD, служащая сигналом обучения для корректировки оценок значения в сторону лучшего предсказания будущих вознаграждений.

📖
термины

Бутстрэппинг

Техника, при которой оценка обновляется на основе другой текущей оценки, позволяющая онлайн-обучение и более быстрое, чем методы, ожидающие конечные вознаграждения.

📖
термины

Комбинация TD-MC

Гибридная стратегия, которая использует низкое смещение бутстрэппинга TD и низкую дисперсию методов Монте-Карло для более стабильного и эффективного обучения в эпизодических задачах.

📖
термины

Алгоритм TD(λ)

Обобщение методов TD, которое взвешивает n-кортежи будущих вознаграждений в соответствии с фактором следа элигибильности λ, позволяя непрерывный компромисс между TD(0) и Монте-Карло.

📖
термины

След элигибильности

Механизм памяти, который отслеживает недавно посещенные состояния или действия, позволяя распространять ошибку TD обратно во времени для ускорения обучения.

📖
термины

Компромисс между смещением и дисперсией

Фундаментальная дилемма, при которой уменьшение смещения (через бутстрэппинг TD) увеличивает дисперсию, и наоборот (через методы MC), требуя баланса для оптимальной производительности.

📖
термины

Обновление On-Policy

Процесс обучения, при котором оцениваемая политика совпадает с той, которая используется для генерации данных, как в алгоритмах SARSA и TD(λ) on-policy.

📖
термины

Функция значения состояния (V(s))

Оценка ожидаемого вознаграждения при выходе из состояния s и следовании заданной политике, служащая основой для обновлений TD для оценки политики.

📖
термины

Алгоритм Q-learning

Метод TD off-policy, который напрямую изучает оптимальную функцию ценности, используя наилучшее возможное действие в следующем состоянии, независимо от используемой политики.

📖
термины

Возвращаемое значение (Gt)

Дисконтированная сумма будущих вознаграждений, получаемых с шага времени t, являющаяся целевым значением для обучения в методах Монте-Карло и TD.

📖
термины

TD-цель

Оценка, используемая для обновления текущего значения в алгоритмах TD, сочетающая немедленное вознаграждение с оценкой будущего значения (напр.: R + γV(s')).

🔍

Результаты не найдены