قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
مصفوفة معلومات فيشر
مصفوفة تقيس كمية المعلومات التي يحملها متغير عشوائي حول معلمة غير معروفة، وتستخدم في TRPO لتحديد هندسة فضاء المعلمات.
تباعد كلبر-لايبلر
مقياس عدم التشابه بين توزيعين احتماليين، يستخدم في TRPO كشرط للحد من الفجوة بين السياسات المتتالية.
التدرج المترافق
خوارزمية تحسين تكرارية تستخدم في TRPO لحل الأنظمة الخطية بكفاءة في اتجاه انخفاض التدرج الطبيعي.
البحث الخطي
إجراء تحسين يضبط حجم الخطوة لضمان أن التحديث يحترم قيود منطقة الثقة في TRPO.
نظرية التحسين الرتيب
نظرية تضمن أن السياسة المحدثة باستخدام TRPO تحسن دائماً أو تحافظ على الأداء المتوقع في ظل شروط معينة لمنطقة الثقة.
المكافأة المقبلة
مقدر دالة القيمة الذي يستخدم فقط المكافآت المستقبلية بعد خطوة زمنية معينة لتقليل التباين في تقدير التدرج.
كفاءة العينة
مقياس كفاءة خوارزمية التعلم المعزز في استخدام البيانات المجمعة، TRPO معروف بكفاءة عيناته الجيدة.
التعلم حسب السياسة
بارادigm التعلم حيث يجب أن تأتي البيانات المجمعة من السياسة الحالية، وهي خاصية أساسية لـ TRPO على عكس طرق off-policy.