🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

DAgger (Dataset Aggregation)

Алгоритм обучения с имитацией, который итеративно собирает данные, запрашивая эксперта о состояниях, посещаемых текущей политикой. Этот подход уменьшает расхождение между распределением обучающих данных и распределением при развертывании.

📖
термины

Агрегация данных

Процесс сбора и объединения нескольких наборов данных из разных источников или итераций обучения. В DAgger это позволяет постепенно повышать устойчивость изученной политики.

📖
термины

Итеративный сбор

Методология сбора данных, выполняемая в несколько последовательных циклов, где каждый цикл использует информацию из предыдущих циклов. Этот подход позволяет непрерывно уточнять политику и исследовать новые состояния.

📖
термины

Поведенческая политика

Стратегия или распределение вероятностей над действиями, которой следует агент при сборе данных в DAgger. Она эволюционирует с течением итераций, приближаясь к оптимальной политике.

📖
термины

Распределение состояний

Вероятностное множество состояний, которые агент с большой вероятностью будет посещать во время выполнения. DAgger стремится согласовать это распределение с тем, с которым сталкивается при реальном развертывании.

📖
термины

Смещение распределения

Разница между распределением обучающих данных и тем, с которым сталкиваются при развертывании в производственной среде. DAgger уменьшает это смещение, собирая данные о состояниях, фактически посещаемых текущей политикой.

📖
термины

Коррекция ошибок

Процесс, в ходе которого эксперт предоставляет правильные действия, когда текущая политика агента совершает ошибки. Эти коррекции служат новыми обучающими данными для улучшения политики.

📖
термины

Запрос к эксперту

Механизм получения оптимальных действий от эксперта-человека или системы для конкретных состояний, посещаемых агентом. Такие запросы необходимы для генерации высококачественных обучающих данных.

📖
термины

Посещенное состояние

Конкретная конфигурация или ситуация в среде, которую агент достигает при выполнении своей текущей политики. Эти состояния становятся вопросами для эксперта в DAgger.

📖
термины

Текущая политика

Текущая версия стратегии принятия решений агента, которая развивается на каждой итерации алгоритма DAgger. Она используется для исследования среды и определения состояний, требующих экспертных исправлений.

📖
термины

Адаптивная агрегация

Вариант DAgger, который динамически настраивает соотношение экспертных действий и действий текущей политики. Эта адаптация позволяет сбалансировать исследование и использование во время обучения.

📖
термины

Петля обратной связи

Непрерывный цикл, в котором производительность текущей политики генерирует новые состояния, которые в свою очередь требуют экспертных исправлений. Эта итерационная петля является основным механизмом улучшения в DAgger.

📖
термины

Онлайн-коррекция

Процесс экспертного вмешательства, который происходит во время выполнения политики агента в реальном времени. Эти немедленные исправления позволяют избежать распространения ошибок в траекториях.

📖
термины

Распределение траекторий

Набор последовательностей состояний и действий, которые агент генерирует, следуя своей текущей политике. DAgger стремится согласовать это распределение с тем, которое создается оптимальной экспертной политикой.

📖
термины

Целевая политика

Оптимальная политика, которую агент стремится имитировать, обычно представленная демонстрациями эксперта. Цель DAgger - сделать так, чтобы изученная политика сходилась к этой целевой политике.

📖
термины

Прогрессивная агрегация

Стратегия накопления данных, где каждая новая итерация добавляет дополнительную информацию к существующим данным. Этот подход обеспечивает растущее покрытие релевантного пространства состояний.

📖
термины

Ошибка компактности

Разница в производительности между изученной политикой и экспертной политикой из-за ограничений представления. DAgger минимизирует эту ошибку, собирая данные о реальном распределении состояний.

🔍

Результаты не найдены