🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📂
subcategorías

Conservative Q-Learning (CQL)

Méthode qui pénalise les valeurs Q surestimées pour maintenir la politique proche de la distribution des données.

18 términos
📂
subcategorías

Batch Constrained Q-learning (BCQ)

Approche qui contraint les actions à rester proches de celles observées dans le jeu de données pour éviter la distribution shift.

17 términos
📂
subcategorías

Decision Transformer

Architecture transformer qui traite l'apprentissage par renforcement offline comme un problème de séquence à séquence.

11 términos
📂
subcategorías

Implicit Q-Learning (IQL)

Méthode qui apprend implicitement la fonction Q sans nécessiter d'opérateur max explicite.

13 términos
📂
subcategorías

Model-Based Offline RL

Approche utilisant des modèles appris de l'environnement pour améliorer l'échantillonnage hors distribution.

10 términos
📂
subcategorías

Offline-to-Online Transfer Learning

Techniques pour transférer efficacement les apprentissages offline vers des settings en ligne.

6 términos
📂
subcategorías

Distributional Offline RL

Méthodes modélisant la distribution complète des retours plutôt que seulement leur espérance mathématique.

13 términos
📂
subcategorías

Safe Offline Reinforcement Learning

Approches garantissant la sécurité lors du déploiement de politiques apprises uniquement sur données statiques.

11 términos
📂
subcategorías

Uncertainty-Aware Offline RL

Méthodes quantifiant l'incertitude épistémique pour éviter les actions hors distribution.

17 términos
📂
subcategorías

Trajectory Transformer

Modèle transformer qui génère des trajectoires complètes en apprentissant la distribution des séquences état-action-récompense.

6 términos
📂
subcategorías

Advantage-Weighted Regression (AWR)

Approche pondérant les régressions selon l'avantage pour améliorer la sélection d'actions hors distribution.

11 términos
📂
subcategorías

Offline Multi-Task Reinforcement Learning

Paradigme d'apprentissage simultané de multiples tâches à partir de datasets batch partagés.

18 términos
🔍

No se encontraron resultados