قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
Q-learning
خوارزمية تعلم تعزيزية بدون نموذج تتعلم دالة قيمة الإجراء-الحالة لتحديد السياسة المثلى.
SARSA
خوارزمية تعلم تعزيزية على السياسة (on-policy) تقوم بتحديث قيم Q باستخدام الإجراء الذي تم اتخاذه فعليًا.
البرمجة الديناميكية
الطرق الرياضية بما في ذلك تكرار القيمة وتكرار السياسة لحل مشاكل اتخاذ القرار الماركوفية (MDP).
طرق مونت كارلو
أساليب تعلم تعتمد على أخذ عينات من الحلقات الكاملة لتقدير القيم
التعلم الزمني التفاضلي
دمج بين البرمجة الديناميكية و مونت كارلو يسمح بالتحديثات عبر الإنترنت بعد كل خطوة
Q-learning مزدوج
نوع من Q-learning يستخدم مقدّري Q لخفض التحيز الناتج عن المبالغة في تقدير قيم الإجراءات.
تقريب الدوال
توسيع الطرق الجدولية إلى فضاءات الحالات المستمرة باستخدام مُقَدِّرات مثل شبكات الأعصاب.
التعلم مع النموذج
الأساليب التي يكون فيها نموذج انتقال البيئة معروفًا أو يُتعلم من أجل تخطيط الإجراءات.
المستكشف مقابل الاستغلال
استراتيجيات لتحقيق التوازن بين استكشاف إجراءات جديدة والاستفادة من المعرفة المكتسبة.
Processus Décisionnels Markoviens
Framework mathématique formel modélisant les problèmes de décision séquentielle en environnement stochastique.
التعلم متعدد الوكلاء
توسيع نطاق التعلم المعزز ليشمل البيئات التي يتفاعل فيها عدة وكلاء.
عمليات قابلة للملاحظة جزئياً
تعميم لمشكلات اتخاذ القرار حيث يكون الحالة ملاحظة جزئياً فقط، مما يتطلب وجود معتقدات حول الحالة.
طرق تدرج سياسة
تحسين المعلمات السياسية مباشرة من خلال اتباع تدرج الأداء المتوقع.
آثار القابلية
آلية تجمع بين مزايا TD و مونت كارلو لتسريع التعلم من خلال الائتمان المؤقت.
تحليل القيمة
تفكيك دالة Q إلى قيمة الحالة وميزة لتحسين استقرار التعلم