SARSA

📖

المصطلحات

خوارزمية تعلم تعزيزية تتبع النهج المُ(policy) حيث تقوم بتحديث قيم Q باستخدام الخماسي (الحالة، الإجراء، المكافأة، الحالة التالية، الإجراء التالي)، على عكس خوارزمية Q-Learning التي تستخدم الإجراء الأمثل التالي.

📖

المصطلحات

On-policy

طريقة تعلم يتم فيها أن تكون سياسة التقييم وسياسة التحسين متطابقتين، أي أن العامل يتعلم من خلال اتباع سياسته الحالية مباشرة بدلاً من اتباع سياسة سلوكية مختلفة.

📖

المصطلحات

Politique Epsilon-greedy

استراتيجية اختيار إجراء تختار الإجراء الأمثل باحتمال (1-ε) وإجراءً عشوائيًا باحتمال ε، مما يضمن توازنًا بين الاستغلال والاستكشاف في SARSA.

📖

المصطلحات

Fonction Q-valeur

دالة تقييم تُقدّر المكافأة التراكمية المتوقعة عند اتخاذ إجراء معين في حالة معينة، ثم اتباع سياسة محددة لاحقًا.

📖

المصطلحات

Convergence SARSA

خاصية تضمن أن خوارزمية SARSA تتقارب نحو دالة Q الأمثلية تحت شروط معينة، مثل استخدام معدل تعلم متناقص واتباع سياسة GLIE.

📖

المصطلحات

Table Q

هيكل بيانات ثنائي الأبعاد يخزن قيم Q لكل زوج (حالة-إجراء)، ويُستخدم في الإصدارات الجدولية من SARSA في فضاءات الحالات المنفصلة.

📖

المصطلحات

Politique GLIE

سياسة تُعرف بـ 'Greedy in the Limit with Infinite Exploration'، وتضمن استكشافًا كافيًا مع التقارب نحو سياسة جشعة، وهي ضرورية لضمان تقارب SARSA.

📖

المصطلحات

Équation de mise à jour SARSA

الصيغة Q(s,a) ← Q(s,a) + α[r + γQ(s',a') - Q(s,a)] التي تُحدّث قيم Q بشكل تكراري باستخدام الإجراء الفعلي المنفذ بدلاً من الإجراء الأمثل.

📖

المصطلحات

Erreur TD

Différence temporelle [r + γQ(s',a') - Q(s,a)] représentant l'écart entre la valeur Q estimée et la valeur cible basée sur l'expérience réelle, utilisée pour guider l'apprentissage.

📖

المصطلحات

SARSA(λ)

Extension de SARSA utilisant les traces d'éligibilité avec paramètre λ pour accélérer l'apprentissage en propageant les récompenses aux états et actions précédemment visités dans un épisode.

📖

المصطلحات

Traces d'éligibilité

Mécanisme qui garde en mémoire les paires état-action récemment visitées avec une décroissance exponentielle, permettant une attribution plus efficace du crédit dans SARSA(λ).

📖

المصطلحات

Critique d'approximation

Variante de SARSA où la fonction Q est approximée par un modèle paramétrique (réseau neuronal) plutôt qu'une table, permettant de gérer des espaces d'états continus ou de grande dimension.

📖

المصطلحات

Stabilisation SARSA

Techniques comme l'échantillonnage d'expérience reproductible ou la normalisation des récompenses utilisées pour améliorer la stabilité de l'apprentissage dans des environnements complexes.

قاموس الذكاء الاصطناعي

SARSA

On-policy

Politique Epsilon-greedy

Fonction Q-valeur

Convergence SARSA

Table Q

Politique GLIE

Équation de mise à jour SARSA

Erreur TD

SARSA(λ)

Traces d'éligibilité

Critique d'approximation

Stabilisation SARSA

لم يتم العثور على نتائج