🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Model-Based Offline RL

Approche d'apprentissage par renforcement offline qui apprend un modèle dynamique de l'environnement pour générer des données synthétiques et améliorer la politique sans interaction réelle.

📖
términos

Imagination Rollouts

Trajectoires simulées générées en utilisant le modèle appris de l'environnement pour explorer des états futurs potentiels sans interaction réelle avec l'environnement.

📖
términos

Conservative Policy Optimization

Algorithme qui pénalise explicitement les politiques qui s'écartent significativement du comportement des données d'entraînement pour éviter les erreurs d'extrapolation.

📖
términos

Uncertainty Quantification

Technique permettant d'estimer l'incertitude du modèle dynamique dans les régions hors-distribution pour guider l'exploration et éviter les erreurs catastrophiques.

📖
términos

Ensemble Models

Collection de plusieurs modèles dynamiques entraînés avec différentes initialisations pour estimer l'incertitude épistémique par la variance des prédictions.

📖
términos

Trajectory Transformers

Architecture transformer qui modélise les trajectoires comme des séquences d'états, actions et récompenses pour prédire les transitions futures en apprentissage offline.

📖
términos

Offline-to-Online Transfer

Processus de transfert d'une politique apprise offline vers un environnement en ligne pour affinement et adaptation continue avec interaction réelle.

📖
términos

Model Ensembling

Technique utilisant plusieurs modèles dynamiques pour capturer différentes hypothèses sur la transition d'état et améliorer la robustesse des prédictions.

📖
términos

Advantage Weighted Regression

Méthode offline qui pondère les actions dans les données d'entraînement selon leur avantage estimé pour améliorer la politique au-delà du simple clonage.

📖
términos

Out-of-Distribution Detection

Mécanisme pour identifier quand les états générés par le modèle s'écartent significativement de la distribution des données d'entraînement originales.

🔍

No se encontraron resultados