قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
التعلم الزمني التفاضلي
طريقة تعلم تعزيزي تجمع بين البرمجة الديناميكية وطرق مونت كارلو لتحديث تقديرات القيمة بعد كل خطوة دون انتظار نهاية الحلقة.
خطأ TD
الفرق بين القيمة المقدرة حالياً لحالة معينة والقيمة المستهدفة التي تم تحديثها باستخدام المكافأة الفورية وتقدير القيمة للحالة التالية.
TD(λ)
خوارزمية تعلم زمني تفاضلي معممة تستخدم معلمة λ لوزن عوائد الخطوات-n وآثار الأهلية، مما يسمح بتوازن بين TD(0) ومونت كارلو.
آثار الأهلية
آلية تحتفظ بذاكرة قصيرة المدى للحالات أو الإجراءات التي تمت زيارتها مؤخراً، مما يسمح بتعيين الائتمان أو اللوم بشكل أكثر فعالية في التعلم التعزيزي.
SARSA
خوارزمية تعلم زمني تفاضلي ضمن السياسة (on-policy) تقوم بتحديث قيم الإجراء-الحالة باستخدام الخماسية (الحالة، الإجراء، المكافأة، الحالة التالية، الإجراء التالي).
الاستدلال TD
تقنية يتم فيها تحديث التقديرات الحالية للقيمة باستخدام تقديرات أخرى للقيمة، مما يسمح بالتعلم عبر الإنترنت دون انتظار النتائج النهائية.
عائد TD
تقدير للعائد المتوقع من حالة معينة، ويتم حسابه بدمج المكافآت الفورية مع تقديرات القيمة المستقبلية وفقاً لطريقة التفاضل الزمني.
تحديث TD
عملية تكرارية لتعديل تقديرات القيمة باستخدام خطأ TD مضروباً بمعدل التعلم لتقليل الفجوة تدريجياً بين التنبؤ والواقع.
Convergence TD
Propriété mathématique garantissant que les algorithmes d'apprentissage temporel différentiel convergent vers les valeurs optimales sous certaines conditions sur les taux d'apprentissage et l'exploration.
Équation de Bellman TD
Formulation de l'équation de Bellman adaptée pour l'apprentissage temporel différentiel, exprimant la valeur d'un état comme une fonction des récompenses immédiates et des valeurs futures.
Fonction de Valeur TD
Estimation itérative de la valeur attendue des états ou actions, mise à jour continuellement par les méthodes temporelles différentielles pour approcher la fonction de valeur optimale.
Predictive TD
Application de l'apprentissage temporel différentiel aux problèmes de prédiction de séquences, où l'algorithme apprend à prédire les valeurs futures en se basant sur les observations passées.
Control TD
Extension des méthodes TD aux problèmes de contrôle où l'agent doit non seulement évaluer les états mais aussi apprendre une politique optimale d'action pour maximiser les récompenses cumulées.
N-Step TD
Généralisation de l'apprentissage temporel différentiel utilisant n étapes futures pour calculer les mises à jour, offrant un compromis entre TD(0) et les méthodes Monte Carlo complètes.