قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
الشبكات العصبية العميقة Q (DQN)
خوارزمية رائدة تجمع بين Q-learning والشبكات العصبية العميقة لتقريب دالة القيمة Q في مساحات الحالة المعقدة.
Policy Gradient Methods
Approches d'apprentissage par renforcement qui optimisent directement la politique en suivant le gradient des rewards attendus.
طرق الممثل-الناقد
بنية هجينة تجمع بين ممثل يتعلم السياسة وناقد يقيم قيمة الحالات أو الإجراءات.
تدرج السياسة الحتمية العميق (DDPG)
خوارزمية الممثل-الناقد خارج السياسة للبيئات ذات مساحات الإجراء المستمرة باستخدام الشبكات العصبية العميقة.
تحسين السياسة المجاور (PPO)
طريقة تحسين السياسة التي تحافظ على التحديثات في منطقة موثوقية لضمان استقرار التعلم.
تحسين منطقة الثقة للسياسة (TRPO)
خوارزمية تحسين مقيدة تضمن ألا تبتعد السياسات الجديدة كثيرًا عن السياسات القديمة.
التعلم المعميق بالتعزيز متعدد الوكلاء
امتداد للتعلم المعميق بالتعزيز حيث يتعلم عدة وكلاء في نفس الوقت، بالتعاون أو بالمنافسة في بيئة مشتركة.
التعلم المعزز الهرمي
نهج يهيكل التعلم في مستويات هرمية مع سياسات-meta تتحكم في سياسات فرعية متخصصة.
التعلم المعزز العميق القائم على النموذج
تقنية يتعلم فيها الوكيل نموذجًا للبيئة من أجل التخطيط واتخاذ قرارات أكثر فعالية.
التعلم بالتعزيز التوزيعي
النموذج الذي يتعلم التوزيع الكامل للعوائد بدلاً من متوسطها فقط لتحقيق متانة أفضل.
التعلم المعزز المدفوع بالفضول
نهج يتلقى فيه الوكيل مكافآت داخلية قائمة على فضوله لاستكشاف البيئة بكفاءة.
التعلم الميتا في التعلم المعزز
تقنية تسمح للوكلاء بالتعلم بسرعة في مهام جديدة مع خبرات قليلة