🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Opérateur Max Implicite

Technique mathématique dans IQL qui évite le calcul direct du maximum sur les actions en utilisant des bornes supérieures conservatrices basées sur la distribution de comportement.

📖
términos

Distribution de Comportement

Distribution de probabilité des actions dans le jeu de données offline qui représente la politique ayant généré les données d'entraînement utilisées par IQL.

📖
términos

Fonction de Perte Conservatrice

Objectif mathématique dans IQL qui pénalise les sur-estimations des Q-values en dehors de la distribution de comportement pour garantir la stabilité de l'apprentissage.

📖
términos

Estimation de Q-Cible Implicite

Mécanisme IQL qui calcule les valeurs cibles sans maximisation explicite, en utilisant des expectatives conditionnelles basées sur la distribution de comportement.

📖
términos

Découplage Valeur-Politique

Principe fondamental d'IQL séparant l'apprentissage de la fonction de valeur de l'extraction de politique pour éviter les biais d'optimisation dans le cadre offline.

📖
términos

Période d'Entraînement Offline

Phase d'apprentissage où IQL utilise uniquement un ensemble fixe de données sans interaction avec l'environnement, garantissant la sécurité et l'efficacité computationnelle.

📖
términos

Échantillonnage d'Importance Pondérée

Technique utilisée dans IQL pour corriger le décalage entre la distribution de comportement et la politique cible en pondérant les échantillons selon leur pertinence.

📖
términos

Optimisation Batch-Constrained

Stratégie dans IQL qui contraint les actions apprises à rester proches de celles observées dans le jeu de données pour éviter les extrapolations non fiables.

📖
términos

Biais de Distribution Offline

Défi majeur dans IQL où les données limitées et biaisées peuvent conduire à des estimations incorrectes si non correctement gérées par des mécanismes conservateurs.

📖
términos

Fonction d'Avantage Implicite

Extension d'IQL qui estime les avantages relatifs des actions sans maximisation explicite, permettant une sélection d'action plus robuste dans les contextes offline.

📖
términos

Régularisation de Comportement

Mécanisme dans IQL qui pénalise les déviations significatives par rapport à la distribution de comportement pour maintenir la stabilité et éviter les actions risquées.

📖
términos

Critère de Terminaison Implicite

Méthode dans IQL pour déterminer la convergence de l'apprentissage basée sur la stabilité des estimations Q plutôt que sur des métriques explicites de performance.

📖
términos

Expérience de Démonstration

Ensemble de données pré-collectées utilisées par IQL comme unique source d'apprentissage, typiquement provenant d'experts ou de politiques existantes.

🔍

No se encontraron resultados