قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
التعلم بالتعزيز القائم على النموذج
نهج التعلم بالتعزيز حيث يقوم الوكيل ببناء نموذج داخلي للبيئة لمحاكاة الانتقالات وتجارب التوليد بدون تفاعل حقيقي.
دينا-Q
خوارزمية هجينة للتعلم بالتعزيز تجمع بين التعلم المباشر من التجربة الحقيقية والتخطيط باستخدام نموذج متعلم لإنشاء تجارب محاكاة إضافية.
التعلم المباشر
عملية تحديث قيم الإجراءات أو السياسة القائمة فقط على التجارب الحقيقية المتراكمة أثناء التفاعل مع البيئة.
التخطيط في التعلم بالتعزيز
استخدام نموذج بيئي لإنشاء تجارب اصطناعية وتحسين السياسة بدون تفاعلات إضافية مع البيئة الحقيقية.
نموذج الانتقال
مكون من نموذج بيئة تنبؤية يقدر توزيع الاحتمالات للحالات التالية بالنظر لحالة حالية وإجراء.
نموذج المكافأة
دالة متعلمة تتنبأ بالمكافأة المتوقعة لكل زوج حالة-إجراء في بيئة التعلم بالتعزيز.
التجارب المحاكاة
عينات مولودة صناعياً بالنموذج الداخلي للبيئة لتسريع التعلم بدون الحاجة لتفاعلات حقيقية إضافية.
تحديث القيمة
عملية تكرارية لتعديل تقديرات قيمة الإجراء Q(s,a) القائمة على المكافآت الملاحظة وقيم الحالات المستقبلية وفقاً لمعادلة بيلمان.
ذاكرة التجارب
بنية بيانات تخزن الثلاثيات (الحالة، الإجراء، المكافأة، الحالة التالية) للسماح بالتحديثات المتكررة أثناء مرحلة التخطيط.
Dyna-Q+
امتداد لـ Dyna-Q يدمج آلية استكشاف تعتمد على الوقت المنقضي منذ آخر زيارة للحالة-الإجراء لاكتشاف والتكيف مع التغيرات البيئية.
أولوية المسح
متغير من Dyna-Q حيث يتم إعطاء الأولوية للتحديثات حسب تأثيرها المحتمل على القيم، مما يحسن الكفاءة الحسابية لمرحلة التخطيط.
أثر التخطيط
تسريع التعلم الذي لوحظ عندما يزداد عدد خطط التخطيط لكل خطوة حقيقية، حتى نقطة العائد المتناقص.
تقارب الخوارزمية
خاصية تضمن أن تقديرات قيمة Dyna-Q تتقارب نحو القيم المثلى في ظل شروط معينة من النموذج الدقيق والزيارات اللانهائية.
خطأ النموذج
الفرق بين السلوك الفعلي للبيئة وتنبؤات النموذج المكتسب، والذي يمكن أن يؤثر سلباً على الأداء إذا لم يتم التحكم فيه.
التعقيد الحسابي
التكلفة الحسابية لـ Dyna-Q التي تعتمد خطياً على حجم ذاكرة التجارب وعدد التحديثات التخطيطية لكل تكرار.
تعميم النموذج
القدرة على استقراء تنبؤات النموذج لحالات-إجراءات غير ملاحظة، غالباً ما تتم من خلال الشبكات العصبية أو مُقَرِّبات الوظائف الأخرى.
عينة مساحة الحالات
استراتيجية لاختيار التجارب المحاكاة من الذاكرة أثناء مرحلة التخطيط، والتي تؤثر على كفاءة تعلم Dyna-Q.
وظيفة التخطيط
مكون خوارزمي يقوم بإجراء تحديثات متكررة على التجارب المخزنة لتحسين تقديرات القيمة دون تفاعل جديد مع البيئة.
معدل التعلم التكيفي
آلية للتعديل الديناميكي لمعدل التعلم في Dyna-Q لتحسين التقارب مع الأخذ في الاعتبار تباين التجارب الحقيقية والمحاكاة.