🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Пакетное Ограниченное Q-обучение (BCQ)

Алгоритм офлайн-обучения с подкреплением, который ограничивает политики близкими к действиям, наблюдаемым в обучающем наборе данных, чтобы избежать ошибок экстраполяции. BCQ использует модель генератора действий для создания действий, похожих на пакетные, с исследованием небольших вариаций.

📖
термины

Сдвиг Распределения

Феномен, когда распределение состояний-действий, посещаемых изученной политикой, значительно отличается от распределения офлайн набора данных. Этот сдвиг может привести к смещенным оценкам ценности и ухудшенной производительности при развертывании.

📖
термины

Офлайн Обучение с Подкреплением

Парадигма обучения, где агент учится исключительно из фиксированного набора данных, собранного заранее, без взаимодействия с окружающей средой. Этот подход необходим, когда исследование в реальном времени дорого или опасно.

📖
термины

Клонирование Поведения

Техника контролируемого обучения, которая непосредственно имитирует действия эксперта из демонстрационных данных без использования сигналов вознаграждения. Хотя проста, этот подход может страдать от накопления каскадных ошибок при развертывании.

📖
термины

Неявное Q-обучение

Метод, который изучает Q-функцию неявно, избегая прямой оценки действий вне распределения. IQL формулирует обучение как проблему обучения по экспектилям для лучшего управления неопределенностью в офлайн данных.

📖
термины

Действия Вне Распределения

Действия, генерируемые изученной политикой, которые не наблюдались или редко наблюдались в обучающем наборе данных. Эти действия представляют основной риск в офлайн RL, так как их ценности не могут быть надежно оценены.

📖
термины

Ограничение Политики

Механизм, ограничивающий изученную политику генерацией действий, похожих на присутствующие в пакете офлайн данных. Это ограничение может быть реализовано через штрафы, расхождения или условные генеративные модели.

📖
термины

Модель Возмущений

Компонент BCQ, который генерирует вариации вокруг действий поведения для локального исследования пространства действий. Эта модель добавляет контролируемый шум к наблюдаемым действиям, гарантируя их выполнимость.

📖
термины

Оценка функции ценности

Процесс оценки Q-значений из офлайн данных с учетом потенциального смещения из-за отсутствия исследования. Современные методы используют методы консервативного недооценивания для избежания сверхоптимизации.

📖
термины

Пакетное обучение с подкреплением

Фреймворк обучения с подкреплением, где агент имеет фиксированный пакет переходов и должен изучать оптимальную политику без дополнительных взаимодействий. Этот контекст накладывает специфические ограничения на алгоритмы для избежания расходимости.

📖
термины

Ограничение безопасности

Ограничение, накладываемое на офлайн политики для гарантии того, что генерируемые действия остаются в безопасных регионах пространства состояний-действий. Эти ограничения критически важны в таких приложениях как робототехника или медицина.

📖
термины

Повторение действий

Стратегия, используемая в офлайн обучении с подкреплением для улучшения стабильности путем повторения действий, похожих на наблюдаемые в данных. Эта техника снижает риск генерации полностью новых и потенциально опасных действий.

📖
термины

Оценка неопределенности

Количественная оценка неопределенности, связанной с оценками ценности действий, не наблюдаемых в пакете. Точная оценка неопределенности позволяет штрафовать действия вне распределения и улучшать робастность.

📖
термины

Обучение с подкреплением на основе модели

Подход, который изучает модель динамики окружения из офлайн данных для генерации синтетических опытов. В офлайн контексте эта модель должна использоваться с осторожностью для избежания распространения ошибок.

📖
термины

Оценка политики

Фаза оценки производительности политики с использованием только офлайн данных без взаимодействия с окружением. Этот этап критически важен для валидации обучения перед развертыванием.

📖
термины

Улучшение политики

Процесс итеративного улучшения политики с использованием оценок ценности, вычисленных из пакета офлайн данных. Улучшение должно соблюдать ограничения распределения для сохранения валидности.

📖
термины

Ошибка начальной загрузки

Накопленная ошибка, когда политика использует собственные оценки стоимости для самосовершенствования, приводящая к расхождению за пределы поддержки данных. Офлайн-методы используют специальные техники для контроля этого смещения.

🔍

Результаты не найдены