🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Opérateur Max Implicite

Technique mathématique dans IQL qui évite le calcul direct du maximum sur les actions en utilisant des bornes supérieures conservatrices basées sur la distribution de comportement.

📖
termes

Distribution de Comportement

Distribution de probabilité des actions dans le jeu de données offline qui représente la politique ayant généré les données d'entraînement utilisées par IQL.

📖
termes

Fonction de Perte Conservatrice

Objectif mathématique dans IQL qui pénalise les sur-estimations des Q-values en dehors de la distribution de comportement pour garantir la stabilité de l'apprentissage.

📖
termes

Estimation de Q-Cible Implicite

Mécanisme IQL qui calcule les valeurs cibles sans maximisation explicite, en utilisant des expectatives conditionnelles basées sur la distribution de comportement.

📖
termes

Découplage Valeur-Politique

Principe fondamental d'IQL séparant l'apprentissage de la fonction de valeur de l'extraction de politique pour éviter les biais d'optimisation dans le cadre offline.

📖
termes

Période d'Entraînement Offline

Phase d'apprentissage où IQL utilise uniquement un ensemble fixe de données sans interaction avec l'environnement, garantissant la sécurité et l'efficacité computationnelle.

📖
termes

Échantillonnage d'Importance Pondérée

Technique utilisée dans IQL pour corriger le décalage entre la distribution de comportement et la politique cible en pondérant les échantillons selon leur pertinence.

📖
termes

Optimisation Batch-Constrained

Stratégie dans IQL qui contraint les actions apprises à rester proches de celles observées dans le jeu de données pour éviter les extrapolations non fiables.

📖
termes

Biais de Distribution Offline

Défi majeur dans IQL où les données limitées et biaisées peuvent conduire à des estimations incorrectes si non correctement gérées par des mécanismes conservateurs.

📖
termes

Fonction d'Avantage Implicite

Extension d'IQL qui estime les avantages relatifs des actions sans maximisation explicite, permettant une sélection d'action plus robuste dans les contextes offline.

📖
termes

Régularisation de Comportement

Mécanisme dans IQL qui pénalise les déviations significatives par rapport à la distribution de comportement pour maintenir la stabilité et éviter les actions risquées.

📖
termes

Critère de Terminaison Implicite

Méthode dans IQL pour déterminer la convergence de l'apprentissage basée sur la stabilité des estimations Q plutôt que sur des métriques explicites de performance.

📖
termes

Expérience de Démonstration

Ensemble de données pré-collectées utilisées par IQL comme unique source d'apprentissage, typiquement provenant d'experts ou de politiques existantes.

🔍

Aucun résultat trouvé