التعلم المعزز الكلاسيكي - مسرد الذكاء الاصطناعي

📂

الفئات الفرعية

Q-learning

خوارزمية تعلم تعزيزية بدون نموذج تتعلم دالة قيمة الإجراء-الحالة لتحديد السياسة المثلى.

16 المصطلحات

📂

الفئات الفرعية

SARSA

خوارزمية تعلم تعزيزية على السياسة (on-policy) تقوم بتحديث قيم Q باستخدام الإجراء الذي تم اتخاذه فعليًا.

13 المصطلحات

📂

الفئات الفرعية

البرمجة الديناميكية

الطرق الرياضية بما في ذلك تكرار القيمة وتكرار السياسة لحل مشاكل اتخاذ القرار الماركوفية (MDP).

16 المصطلحات

📂

الفئات الفرعية

طرق مونت كارلو

أساليب تعلم تعتمد على أخذ عينات من الحلقات الكاملة لتقدير القيم

16 المصطلحات

📂

الفئات الفرعية

التعلم الزمني التفاضلي

دمج بين البرمجة الديناميكية و مونت كارلو يسمح بالتحديثات عبر الإنترنت بعد كل خطوة

14 المصطلحات

📂

الفئات الفرعية

Q-learning مزدوج

نوع من Q-learning يستخدم مقدّري Q لخفض التحيز الناتج عن المبالغة في تقدير قيم الإجراءات.

16 المصطلحات

📂

الفئات الفرعية

تقريب الدوال

توسيع الطرق الجدولية إلى فضاءات الحالات المستمرة باستخدام مُقَدِّرات مثل شبكات الأعصاب.

12 المصطلحات

📂

الفئات الفرعية

التعلم مع النموذج

الأساليب التي يكون فيها نموذج انتقال البيئة معروفًا أو يُتعلم من أجل تخطيط الإجراءات.

14 المصطلحات

📂

الفئات الفرعية

المستكشف مقابل الاستغلال

استراتيجيات لتحقيق التوازن بين استكشاف إجراءات جديدة والاستفادة من المعرفة المكتسبة.

9 المصطلحات

📂

الفئات الفرعية

Processus Décisionnels Markoviens

Framework mathématique formel modélisant les problèmes de décision séquentielle en environnement stochastique.

19 المصطلحات

📂

الفئات الفرعية

التعلم متعدد الوكلاء

توسيع نطاق التعلم المعزز ليشمل البيئات التي يتفاعل فيها عدة وكلاء.

16 المصطلحات

📂

الفئات الفرعية

عمليات قابلة للملاحظة جزئياً

تعميم لمشكلات اتخاذ القرار حيث يكون الحالة ملاحظة جزئياً فقط، مما يتطلب وجود معتقدات حول الحالة.

14 المصطلحات

📂

الفئات الفرعية

طرق تدرج سياسة

تحسين المعلمات السياسية مباشرة من خلال اتباع تدرج الأداء المتوقع.

8 المصطلحات

📂

الفئات الفرعية

آثار القابلية

آلية تجمع بين مزايا TD و مونت كارلو لتسريع التعلم من خلال الائتمان المؤقت.

17 المصطلحات

📂

الفئات الفرعية

تحليل القيمة

تفكيك دالة Q إلى قيمة الحالة وميزة لتحسين استقرار التعلم

15 المصطلحات

قاموس الذكاء الاصطناعي

Q-learning

SARSA

البرمجة الديناميكية

طرق مونت كارلو

التعلم الزمني التفاضلي

Q-learning مزدوج

تقريب الدوال

التعلم مع النموذج

المستكشف مقابل الاستغلال

Processus Décisionnels Markoviens

التعلم متعدد الوكلاء

عمليات قابلة للملاحظة جزئياً

طرق تدرج سياسة

آثار القابلية

تحليل القيمة

لم يتم العثور على نتائج