التعلم المعزز العميق - مسرد الذكاء الاصطناعي

📂

الفئات الفرعية

الشبكات العصبية العميقة Q (DQN)

خوارزمية رائدة تجمع بين Q-learning والشبكات العصبية العميقة لتقريب دالة القيمة Q في مساحات الحالة المعقدة.

18 المصطلحات

📂

الفئات الفرعية

Policy Gradient Methods

Approches d'apprentissage par renforcement qui optimisent directement la politique en suivant le gradient des rewards attendus.

18 المصطلحات

📂

الفئات الفرعية

طرق الممثل-الناقد

بنية هجينة تجمع بين ممثل يتعلم السياسة وناقد يقيم قيمة الحالات أو الإجراءات.

8 المصطلحات

📂

الفئات الفرعية

تدرج السياسة الحتمية العميق (DDPG)

خوارزمية الممثل-الناقد خارج السياسة للبيئات ذات مساحات الإجراء المستمرة باستخدام الشبكات العصبية العميقة.

9 المصطلحات

📂

الفئات الفرعية

تحسين السياسة المجاور (PPO)

طريقة تحسين السياسة التي تحافظ على التحديثات في منطقة موثوقية لضمان استقرار التعلم.

11 المصطلحات

📂

الفئات الفرعية

تحسين منطقة الثقة للسياسة (TRPO)

خوارزمية تحسين مقيدة تضمن ألا تبتعد السياسات الجديدة كثيرًا عن السياسات القديمة.

8 المصطلحات

📂

الفئات الفرعية

التعلم المعميق بالتعزيز متعدد الوكلاء

امتداد للتعلم المعميق بالتعزيز حيث يتعلم عدة وكلاء في نفس الوقت، بالتعاون أو بالمنافسة في بيئة مشتركة.

20 المصطلحات

📂

الفئات الفرعية

التعلم المعزز الهرمي

نهج يهيكل التعلم في مستويات هرمية مع سياسات-meta تتحكم في سياسات فرعية متخصصة.

20 المصطلحات

📂

الفئات الفرعية

التعلم المعزز العميق القائم على النموذج

تقنية يتعلم فيها الوكيل نموذجًا للبيئة من أجل التخطيط واتخاذ قرارات أكثر فعالية.

19 المصطلحات

📂

الفئات الفرعية

التعلم بالتعزيز التوزيعي

النموذج الذي يتعلم التوزيع الكامل للعوائد بدلاً من متوسطها فقط لتحقيق متانة أفضل.

18 المصطلحات

📂

الفئات الفرعية

التعلم المعزز المدفوع بالفضول

نهج يتلقى فيه الوكيل مكافآت داخلية قائمة على فضوله لاستكشاف البيئة بكفاءة.

16 المصطلحات

📂

الفئات الفرعية

التعلم الميتا في التعلم المعزز

تقنية تسمح للوكلاء بالتعلم بسرعة في مهام جديدة مع خبرات قليلة

18 المصطلحات

قاموس الذكاء الاصطناعي

الشبكات العصبية العميقة Q (DQN)

Policy Gradient Methods

طرق الممثل-الناقد

تدرج السياسة الحتمية العميق (DDPG)

تحسين السياسة المجاور (PPO)

تحسين منطقة الثقة للسياسة (TRPO)

التعلم المعميق بالتعزيز متعدد الوكلاء

التعلم المعزز الهرمي

التعلم المعزز العميق القائم على النموذج

التعلم بالتعزيز التوزيعي

التعلم المعزز المدفوع بالفضول

التعلم الميتا في التعلم المعزز

لم يتم العثور على نتائج