🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Модельное обучение с обратным подкреплением

Подход, который выводит функцию вознаграждения из экспертных демонстраций, используя модель среды для генерации и оценки правдоподобных альтернативных траекторий.

📖
термины

Вывод функции вознаграждения

Процесс оценки лежащей в основе функции вознаграждения агента путем наблюдения за его поведением, часто формулируемый как задача оптимизации правдоподобия демонстрируемых траекторий.

📖
термины

Модель динамики окружающей среды

Изученная модель, которая предсказывает следующее состояние и вознаграждение при наличии текущего состояния и действия, используемая для моделирования траекторий в обучении с подкреплением на основе модели.

📖
термины

Генерация правдоподобных траекторий

Использование модели среды для создания последовательностей состояний-действий, которые согласуются с динамикой системы и наблюдаемыми политиками, служащих синтетическими данными для вывода.

📖
термины

Смещение имитации

Склонность агента, обученного обратным подкреплением, к чрезмерному имитации демонстрируемых действий без обобщения на невидимые состояния, что требует использования моделей для исследования за пределами экспертных данных.

📖
термины

Оптимизация правдоподобия траекторий

Метод настройки функции вознаграждения для максимизации вероятности того, что наблюдаемые экспертные траектории являются оптимальными при выведенном вознаграждении.

📖
термины

Неоднозначная функция вознаграждения

Проблема, при которой несколько различных функций вознаграждения могут одинаково хорошо объяснять одни и те же экспертные демонстрации, требуя ограничений или априорной информации для разрешения неоднозначности.

📖
термины

Набор синтетических траекторий

Коллекция траекторий, сгенерированных моделью среды, используемая для обогащения демонстрационных данных и улучшения надежности вывода вознаграждения.

📖
термины

Erreur de Modèle Environnemental

Écart entre la dynamique réelle de l'environnement et celle prédite par le modèle appris, qui peut biaiser l'inférence de la récompense si non corrigée.

📖
термины

Rétropropagation à travers le Modèle

Technique de calcul des gradients de la fonction de récompense par rapport à ses paramètres en propageant l'erreur à travers le modèle de dynamique différentiable.

📖
термины

Espace des Politiques

Ensemble de toutes les politiques possibles π(a|s) que l'agent peut adopter, dans lequel l'inférence par renforcement inverse cherche à identifier la politique optimale compatible avec les démonstrations.

📖
термины

Planification Monte Carlo sur Modèle

Méthode utilisant des simulations stochastiques du modèle environnemental pour évaluer différentes fonctions de récompense candidates et sélectionner celle qui explique le mieux les démonstrations.

📖
термины

Fonction de Coût de Régularisation

Terme ajouté à l'objectif d'inférence pour pénaliser les fonctions de récompense complexes ou irréalistes, favorisant des solutions plus simples et généralisables.

📖
термины

Distribution Postérieure sur les Récompenses

Approche bayésienne qui maintient une distribution de probabilité sur les fonctions de récompense possibles plutôt qu'une estimation ponctuelle, permettant de quantifier l'incertitude.

📖
термины

Horizon de Simulation

Nombre maximal d'étapes futures simulées par le modèle environnemental lors de la génération de trajectoires, influençant l'équilibre entre exploration et coût computationnel.

📖
термины

Échantillonnage d'Importance Basé sur Modèle

Technique utilisant le modèle pour générer des trajectoires depuis une distribution propositionnelle, puis les pondérant par leur vraisemblance sous la politique experte.

📖
термины

Метод Максимальной Энтропии

Принцип вывода, который выбирает наименее информативную (с максимальной энтропией) функцию вознаграждения среди тех, которые объясняют демонстрации, избегая переобучения.

🔍

Результаты не найдены