🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

Opérateur Max Implicite

Technique mathématique dans IQL qui évite le calcul direct du maximum sur les actions en utilisant des bornes supérieures conservatrices basées sur la distribution de comportement.

📖
المصطلحات

Distribution de Comportement

Distribution de probabilité des actions dans le jeu de données offline qui représente la politique ayant généré les données d'entraînement utilisées par IQL.

📖
المصطلحات

Fonction de Perte Conservatrice

Objectif mathématique dans IQL qui pénalise les sur-estimations des Q-values en dehors de la distribution de comportement pour garantir la stabilité de l'apprentissage.

📖
المصطلحات

Estimation de Q-Cible Implicite

Mécanisme IQL qui calcule les valeurs cibles sans maximisation explicite, en utilisant des expectatives conditionnelles basées sur la distribution de comportement.

📖
المصطلحات

Découplage Valeur-Politique

Principe fondamental d'IQL séparant l'apprentissage de la fonction de valeur de l'extraction de politique pour éviter les biais d'optimisation dans le cadre offline.

📖
المصطلحات

Période d'Entraînement Offline

Phase d'apprentissage où IQL utilise uniquement un ensemble fixe de données sans interaction avec l'environnement, garantissant la sécurité et l'efficacité computationnelle.

📖
المصطلحات

Échantillonnage d'Importance Pondérée

Technique utilisée dans IQL pour corriger le décalage entre la distribution de comportement et la politique cible en pondérant les échantillons selon leur pertinence.

📖
المصطلحات

Optimisation Batch-Constrained

Stratégie dans IQL qui contraint les actions apprises à rester proches de celles observées dans le jeu de données pour éviter les extrapolations non fiables.

📖
المصطلحات

Biais de Distribution Offline

Défi majeur dans IQL où les données limitées et biaisées peuvent conduire à des estimations incorrectes si non correctement gérées par des mécanismes conservateurs.

📖
المصطلحات

Fonction d'Avantage Implicite

Extension d'IQL qui estime les avantages relatifs des actions sans maximisation explicite, permettant une sélection d'action plus robuste dans les contextes offline.

📖
المصطلحات

Régularisation de Comportement

Mécanisme dans IQL qui pénalise les déviations significatives par rapport à la distribution de comportement pour maintenir la stabilité et éviter les actions risquées.

📖
المصطلحات

Critère de Terminaison Implicite

Méthode dans IQL pour déterminer la convergence de l'apprentissage basée sur la stabilité des estimations Q plutôt que sur des métriques explicites de performance.

📖
المصطلحات

Expérience de Démonstration

Ensemble de données pré-collectées utilisées par IQL comme unique source d'apprentissage, typiquement provenant d'experts ou de politiques existantes.

🔍

لم يتم العثور على نتائج