قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
SARSA
خوارزمية تعلم تعزيزية تتبع النهج المُ(policy) حيث تقوم بتحديث قيم Q باستخدام الخماسي (الحالة، الإجراء، المكافأة، الحالة التالية، الإجراء التالي)، على عكس خوارزمية Q-Learning التي تستخدم الإجراء الأمثل التالي.
On-policy
طريقة تعلم يتم فيها أن تكون سياسة التقييم وسياسة التحسين متطابقتين، أي أن العامل يتعلم من خلال اتباع سياسته الحالية مباشرة بدلاً من اتباع سياسة سلوكية مختلفة.
Politique Epsilon-greedy
استراتيجية اختيار إجراء تختار الإجراء الأمثل باحتمال (1-ε) وإجراءً عشوائيًا باحتمال ε، مما يضمن توازنًا بين الاستغلال والاستكشاف في SARSA.
Fonction Q-valeur
دالة تقييم تُقدّر المكافأة التراكمية المتوقعة عند اتخاذ إجراء معين في حالة معينة، ثم اتباع سياسة محددة لاحقًا.
Convergence SARSA
خاصية تضمن أن خوارزمية SARSA تتقارب نحو دالة Q الأمثلية تحت شروط معينة، مثل استخدام معدل تعلم متناقص واتباع سياسة GLIE.
Table Q
هيكل بيانات ثنائي الأبعاد يخزن قيم Q لكل زوج (حالة-إجراء)، ويُستخدم في الإصدارات الجدولية من SARSA في فضاءات الحالات المنفصلة.
Politique GLIE
سياسة تُعرف بـ 'Greedy in the Limit with Infinite Exploration'، وتضمن استكشافًا كافيًا مع التقارب نحو سياسة جشعة، وهي ضرورية لضمان تقارب SARSA.
Équation de mise à jour SARSA
الصيغة Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)] التي تُحدّث قيم Q بشكل تكراري باستخدام الإجراء الفعلي المنفذ بدلاً من الإجراء الأمثل.
Erreur TD
Différence temporelle [r + γQ(s',a') - Q(s,a)] représentant l'écart entre la valeur Q estimée et la valeur cible basée sur l'expérience réelle, utilisée pour guider l'apprentissage.
SARSA(λ)
Extension de SARSA utilisant les traces d'éligibilité avec paramètre λ pour accélérer l'apprentissage en propageant les récompenses aux états et actions précédemment visités dans un épisode.
Traces d'éligibilité
Mécanisme qui garde en mémoire les paires état-action récemment visitées avec une décroissance exponentielle, permettant une attribution plus efficace du crédit dans SARSA(λ).
Critique d'approximation
Variante de SARSA où la fonction Q est approximée par un modèle paramétrique (réseau neuronal) plutôt qu'une table, permettant de gérer des espaces d'états continus ou de grande dimension.
Stabilisation SARSA
Techniques comme l'échantillonnage d'expérience reproductible ou la normalisation des récompenses utilisées pour améliorer la stabilité de l'apprentissage dans des environnements complexes.