🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

SARSA

خوارزمية تعلم تعزيزية تتبع النهج المُ(policy) حيث تقوم بتحديث قيم Q باستخدام الخماسي (الحالة، الإجراء، المكافأة، الحالة التالية، الإجراء التالي)، على عكس خوارزمية Q-Learning التي تستخدم الإجراء الأمثل التالي.

📖
المصطلحات

On-policy

طريقة تعلم يتم فيها أن تكون سياسة التقييم وسياسة التحسين متطابقتين، أي أن العامل يتعلم من خلال اتباع سياسته الحالية مباشرة بدلاً من اتباع سياسة سلوكية مختلفة.

📖
المصطلحات

Politique Epsilon-greedy

استراتيجية اختيار إجراء تختار الإجراء الأمثل باحتمال (1-ε) وإجراءً عشوائيًا باحتمال ε، مما يضمن توازنًا بين الاستغلال والاستكشاف في SARSA.

📖
المصطلحات

Fonction Q-valeur

دالة تقييم تُقدّر المكافأة التراكمية المتوقعة عند اتخاذ إجراء معين في حالة معينة، ثم اتباع سياسة محددة لاحقًا.

📖
المصطلحات

Convergence SARSA

خاصية تضمن أن خوارزمية SARSA تتقارب نحو دالة Q الأمثلية تحت شروط معينة، مثل استخدام معدل تعلم متناقص واتباع سياسة GLIE.

📖
المصطلحات

Table Q

هيكل بيانات ثنائي الأبعاد يخزن قيم Q لكل زوج (حالة-إجراء)، ويُستخدم في الإصدارات الجدولية من SARSA في فضاءات الحالات المنفصلة.

📖
المصطلحات

Politique GLIE

سياسة تُعرف بـ 'Greedy in the Limit with Infinite Exploration'، وتضمن استكشافًا كافيًا مع التقارب نحو سياسة جشعة، وهي ضرورية لضمان تقارب SARSA.

📖
المصطلحات

Équation de mise à jour SARSA

الصيغة Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)] التي تُحدّث قيم Q بشكل تكراري باستخدام الإجراء الفعلي المنفذ بدلاً من الإجراء الأمثل.

📖
المصطلحات

Erreur TD

Différence temporelle [r + γQ(s',a') - Q(s,a)] représentant l'écart entre la valeur Q estimée et la valeur cible basée sur l'expérience réelle, utilisée pour guider l'apprentissage.

📖
المصطلحات

SARSA(λ)

Extension de SARSA utilisant les traces d'éligibilité avec paramètre λ pour accélérer l'apprentissage en propageant les récompenses aux états et actions précédemment visités dans un épisode.

📖
المصطلحات

Traces d'éligibilité

Mécanisme qui garde en mémoire les paires état-action récemment visitées avec une décroissance exponentielle, permettant une attribution plus efficace du crédit dans SARSA(λ).

📖
المصطلحات

Critique d'approximation

Variante de SARSA où la fonction Q est approximée par un modèle paramétrique (réseau neuronal) plutôt qu'une table, permettant de gérer des espaces d'états continus ou de grande dimension.

📖
المصطلحات

Stabilisation SARSA

Techniques comme l'échantillonnage d'expérience reproductible ou la normalisation des récompenses utilisées pour améliorer la stabilité de l'apprentissage dans des environnements complexes.

🔍

لم يتم العثور على نتائج