🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📂
sous-catégories

Conservative Q-Learning (CQL)

Méthode qui pénalise les valeurs Q surestimées pour maintenir la politique proche de la distribution des données.

18 termes
📂
sous-catégories

Batch Constrained Q-learning (BCQ)

Approche qui contraint les actions à rester proches de celles observées dans le jeu de données pour éviter la distribution shift.

17 termes
📂
sous-catégories

Decision Transformer

Architecture transformer qui traite l'apprentissage par renforcement offline comme un problème de séquence à séquence.

11 termes
📂
sous-catégories

Implicit Q-Learning (IQL)

Méthode qui apprend implicitement la fonction Q sans nécessiter d'opérateur max explicite.

13 termes
📂
sous-catégories

Model-Based Offline RL

Approche utilisant des modèles appris de l'environnement pour améliorer l'échantillonnage hors distribution.

10 termes
📂
sous-catégories

Offline-to-Online Transfer Learning

Techniques pour transférer efficacement les apprentissages offline vers des settings en ligne.

6 termes
📂
sous-catégories

Distributional Offline RL

Méthodes modélisant la distribution complète des retours plutôt que seulement leur espérance mathématique.

13 termes
📂
sous-catégories

Safe Offline Reinforcement Learning

Approches garantissant la sécurité lors du déploiement de politiques apprises uniquement sur données statiques.

11 termes
📂
sous-catégories

Uncertainty-Aware Offline RL

Méthodes quantifiant l'incertitude épistémique pour éviter les actions hors distribution.

17 termes
📂
sous-catégories

Trajectory Transformer

Modèle transformer qui génère des trajectoires complètes en apprentissant la distribution des séquences état-action-récompense.

6 termes
📂
sous-catégories

Advantage-Weighted Regression (AWR)

Approche pondérant les régressions selon l'avantage pour améliorer la sélection d'actions hors distribution.

11 termes
📂
sous-catégories

Offline Multi-Task Reinforcement Learning

Paradigme d'apprentissage simultané de multiples tâches à partir de datasets batch partagés.

18 termes
🔍

Aucun résultat trouvé