🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Apprentissage par Renforcement Inverse Batch

Méthode d'IRL qui infère la fonction de récompense à partir d'un ensemble fixe de démonstrations sans interaction continue avec l'environnement.

📖
términos

Ensemble de Démonstrations Fixes

Collection statique de trajectoires expertes utilisée comme unique source d'information pour l'apprentissage en batch.

📖
términos

Inférence de Récompense hors-ligne

Processus d'estimation de la fonction de récompense optimale sans accès direct à l'environnement ou à l'expert pendant l'apprentissage.

📖
términos

Trajectoires Expertes Batch

Séquences d'états-actions collectées une seule fois qui représentent le comportement optimal à imiter.

📖
términos

Maximisation de la Vraisemblance Marginale

Technique d'optimisation qui maximise la probabilité que les démonstrations expertes soient optimales sous la récompense apprise.

📖
términos

Apprentissage sans Interaction Active

Paradigme d'apprentissage où l'agent ne peut pas interroger l'environnement ou l'expert pendant le processus d'optimisation.

📖
términos

Biais de Distribution Batch

Phénomène où les politiques apprises en batch sur-optimisent pour les états observés dans le dataset d'entraînement.

📖
términos

Contrainte de Cohérence de Trajectoire

Condition imposée en BIRL garantissant que la récompense apprise classe les trajectoires expertes au-dessus des alternatives.

📖
términos

Espace de Politiques Admissibles

Ensemble des politiques qui peuvent être évaluées étant donné les limitations des données batch disponibles.

📖
términos

Optimisation Convexe Batch

Formulation du problème BIRL comme un problème d'optimisation convexe utilisant des contraintes linéaires sur les récompenses.

📖
términos

Erreur d'Extrapolation Batch

Inexactitude introduite lorsque le système évalue des états ou actions non présents dans le dataset d'entraînement initial.

📖
términos

Fonction de Récompense à Support Fini

Représentation de récompense définie uniquement sur les états observés dans le batch de démonstrations.

📖
términos

Apprentissage par Renforcement Inverse Apprentissage Profond

Extension du BIRL utilisant des réseaux de neurones profonds pour modéliser des fonctions de récompense complexes.

📖
términos

Stabilité Apprentissage Batch

Propriété garantissant que les solutions BIRL ne varient pas drastiquement face à de petites perturbations du dataset.

📖
términos

Borne d'Optimalité Batch

Limite théorique sur la performance de la politique apprise en fonction de la qualité et couverture du dataset batch.

📖
términos

Échantillonnage d'Importance Batch

Technique pour corriger le décalage de distribution entre les politiques explorées et les données batch disponibles.

📖
términos

Validation Croisée BIRL

Méthode d'évaluation partitionnant les démonstrations pour estimer la généralisation de la récompense apprise.

📖
términos

Décomposition de la Récompense Batch

Approche factorisant la fonction de récompense en composantes interprétables à partir des données batch.

📖
términos

Régularisation de la Complexité BIRL

Contrainte ajoutée pour éviter le surapprentissage et favoriser des fonctions de récompense simples et généralisables.

📖
términos

Apprentissage Multi-tâches Batch

Extension BIRL apprenant simultanément plusieurs fonctions de récompense à partir de datasets batch distincts.

🔍

No se encontraron resultados