🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Офлайн-обучение имитации

Парадигма обучения, в которой агент учится имитировать экспертное поведение без взаимодействия со средой, используя только фиксированный набор предварительно записанных демонстраций.

📖
термины

Набор демонстраций

Статическая коллекция траекторий или примеров экспертных действий, используемых как единственный источник информации для офлайн-обучения имитации.

📖
термины

Офлайн-обучение с подкреплением

Подход обучения с подкреплением, который использует только предварительно существующий набор данных без взаимодействия в реальном времени со средой.

📖
термины

Важностная выборка

Статистическая техника, используемая для коррекции расхождения между распределением данных и целевой политикой путем взвешивания выборок в соответствии с их относительной вероятностью.

📖
термины

Сохранение распределения

Ограничение, налагаемое на изучаемую политику для сохранения близости к распределению демонстраций, избегая рискованных экстраполяций в неизвестных областях.

📖
термины

Офлайн-траектория

Полная последовательность состояний, действий и вознаграждений, записанная из экспертной политики, являющаяся базовой единицей обучающих данных.

📖
термины

Экспертная политика

Эталонная стратегия, сгенерировавшая демонстрации, служащая моделью для имитации и определяющая желаемое оптимальное поведение.

📖
термины

Офлайн-оценщик

Алгоритм оценки значения или политики, специально разработанный для работы со статическими данными без необходимости взаимодействия со средой.

📖
термины

Консервативная коррекция смещения

Подход к коррекции смещения, который отдаёт приоритет безопасности, штрафуя за действия, недостаточно представленные в демонстрационных данных.

📖
термины

Имитационное обучение с ограничениями

Метод, интегрирующий явные ограничения на расхождение между изучаемой политикой и распределением данных для обеспечения стабильности.

📖
термины

Набор переходов

Структура данных, хранящая кортежи (состояние, действие, следующее состояние, вознаграждение), извлечённые из экспертных траекторий для офлайн-обучения.

📖
термины

Адаптивное взвешивание по значимости

Технология динамического взвешивания, которая корректирует веса значимости в зависимости от уверенности в качестве данных в различных областях пространства состояний.

📖
термины

Ошибка покрытия

Мера, количественно оценивающая несоответствие между носителем распределения данных и носителем оптимальной политики в офлайн-обучении.

🔍

Результаты не найдены