التعلم الزمني التفاضلي

📖

المصطلحات

طريقة تعلم تعزيزي تجمع بين البرمجة الديناميكية وطرق مونت كارلو لتحديث تقديرات القيمة بعد كل خطوة دون انتظار نهاية الحلقة.

📖

المصطلحات

خطأ TD

الفرق بين القيمة المقدرة حالياً لحالة معينة والقيمة المستهدفة التي تم تحديثها باستخدام المكافأة الفورية وتقدير القيمة للحالة التالية.

📖

المصطلحات

TD(λ)

خوارزمية تعلم زمني تفاضلي معممة تستخدم معلمة λ لوزن عوائد الخطوات-n وآثار الأهلية، مما يسمح بتوازن بين TD(0) ومونت كارلو.

📖

المصطلحات

آثار الأهلية

آلية تحتفظ بذاكرة قصيرة المدى للحالات أو الإجراءات التي تمت زيارتها مؤخراً، مما يسمح بتعيين الائتمان أو اللوم بشكل أكثر فعالية في التعلم التعزيزي.

📖

المصطلحات

SARSA

خوارزمية تعلم زمني تفاضلي ضمن السياسة (on-policy) تقوم بتحديث قيم الإجراء-الحالة باستخدام الخماسية (الحالة، الإجراء، المكافأة، الحالة التالية، الإجراء التالي).

📖

المصطلحات

الاستدلال TD

تقنية يتم فيها تحديث التقديرات الحالية للقيمة باستخدام تقديرات أخرى للقيمة، مما يسمح بالتعلم عبر الإنترنت دون انتظار النتائج النهائية.

📖

المصطلحات

عائد TD

تقدير للعائد المتوقع من حالة معينة، ويتم حسابه بدمج المكافآت الفورية مع تقديرات القيمة المستقبلية وفقاً لطريقة التفاضل الزمني.

📖

المصطلحات

تحديث TD

عملية تكرارية لتعديل تقديرات القيمة باستخدام خطأ TD مضروباً بمعدل التعلم لتقليل الفجوة تدريجياً بين التنبؤ والواقع.

📖

المصطلحات

Propriété mathématique garantissant que les algorithmes d'apprentissage temporel différentiel convergent vers les valeurs optimales sous certaines conditions sur les taux d'apprentissage et l'exploration.

📖

المصطلحات

Équation de Bellman TD

Formulation de l'équation de Bellman adaptée pour l'apprentissage temporel différentiel, exprimant la valeur d'un état comme une fonction des récompenses immédiates et des valeurs futures.

📖

المصطلحات

Fonction de Valeur TD

Estimation itérative de la valeur attendue des états ou actions, mise à jour continuellement par les méthodes temporelles différentielles pour approcher la fonction de valeur optimale.

📖

المصطلحات

Predictive TD

Application de l'apprentissage temporel différentiel aux problèmes de prédiction de séquences, où l'algorithme apprend à prédire les valeurs futures en se basant sur les observations passées.

📖

المصطلحات

Control TD

Extension des méthodes TD aux problèmes de contrôle où l'agent doit non seulement évaluer les états mais aussi apprendre une politique optimale d'action pour maximiser les récompenses cumulées.

📖

المصطلحات

N-Step TD

Généralisation de l'apprentissage temporel différentiel utilisant n étapes futures pour calculer les mises à jour, offrant un compromis entre TD(0) et les méthodes Monte Carlo complètes.

قاموس الذكاء الاصطناعي