🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

Fonction Q

Fonction d'évaluation qui quantifie la qualité d'une action spécifique dans un état particulier en termes de récompenses futures attendues.

📖
المصطلحات

Décomposition de la fonction Q

Technique séparant la fonction Q(s,a) en deux composantes : la valeur de l'état V(s) et l'avantage A(s,a) pour améliorer l'efficacité de l'apprentissage.

📖
المصطلحات

Avantage

Mesure quantifiant combien une action est meilleure que la moyenne des actions possibles dans un état donné, défini comme A(s,a) = Q(s,a) - V(s).

📖
المصطلحات

Architecture dueling

Structure de réseau de neurones avec deux flux distincts : un pour estimer V(s) et un autre pour estimer A(s,a), recombinés pour obtenir Q(s,a).

📖
المصطلحات

Estimateur de valeur

Partie de l'architecture dueling responsable de l'estimation de la valeur intrinsèque de chaque état indépendamment des actions possibles.

📖
المصطلحات

Estimateur d'avantage

Composant du réseau dueling calculant l'avantage relatif de chaque action par rapport à la valeur moyenne des actions dans un état.

📖
المصطلحات

Réduction de variance

Bénéfice principal de la décomposition Q où la séparation valeur/avantage stabilise l'apprentissage en réduisant la variance des estimations.

📖
المصطلحات

Stabilité de l'apprentissage

Caractéristique d'un algorithme d'apprentissage qui converge de manière prévisible sans oscillations excessives ou divergence durant l'entraînement.

📖
المصطلحات

États-actions

Paires fondamentales en apprentissage par renforcement représentant une situation spécifique et le choix d'action associé dans l'environnement.

📖
المصطلحات

Agrégation d'avantages

Opération combinant les sorties des estimateurs de valeur et d'avantage pour reconstruire la fonction Q finale en respectant l'identité Q(s,a) = V(s) + A(s,a).

📖
المصطلحات

Normalisation d'avantages

Technique de soustraction de la moyenne des avantages pour garantir l'identifiabilité entre V(s) et A(s,a) dans l'architecture dueling.

📖
المصطلحات

Partage de représentation

Principe où les couches convolutives initiales extrayent des caractéristiques communes utilisées par les estimateurs de valeur et d'avantage.

📖
المصطلحات

Optimisation non-convexe

Défi mathématique dans l'apprentissage par renforcement où la surface de perte contient de nombreux optima locaux, rendant la convergence difficile.

📖
المصطلحات

Efficacité d'échantillonnage

Capacité d'un algorithme à apprendre efficacement avec un nombre limité d'expériences, améliorée par la décomposition valeur/avantage.

📖
المصطلحات

Propagation de gradients

Mécanisme par lequel les erreurs de prédiction sont rétropropagées à travers le réseau pour ajuster simultanément les estimateurs V(s) et A(s,a).

🔍

لم يتم العثور على نتائج