التعلم بواسطة Dyna-Q - مسرد الذكاء الاصطناعي

📖

المصطلحات

التعلم بالتعزيز القائم على النموذج

نهج التعلم بالتعزيز حيث يقوم الوكيل ببناء نموذج داخلي للبيئة لمحاكاة الانتقالات وتجارب التوليد بدون تفاعل حقيقي.

📖

المصطلحات

دينا-Q

خوارزمية هجينة للتعلم بالتعزيز تجمع بين التعلم المباشر من التجربة الحقيقية والتخطيط باستخدام نموذج متعلم لإنشاء تجارب محاكاة إضافية.

📖

المصطلحات

التعلم المباشر

عملية تحديث قيم الإجراءات أو السياسة القائمة فقط على التجارب الحقيقية المتراكمة أثناء التفاعل مع البيئة.

📖

المصطلحات

التخطيط في التعلم بالتعزيز

استخدام نموذج بيئي لإنشاء تجارب اصطناعية وتحسين السياسة بدون تفاعلات إضافية مع البيئة الحقيقية.

📖

المصطلحات

نموذج الانتقال

مكون من نموذج بيئة تنبؤية يقدر توزيع الاحتمالات للحالات التالية بالنظر لحالة حالية وإجراء.

📖

المصطلحات

نموذج المكافأة

دالة متعلمة تتنبأ بالمكافأة المتوقعة لكل زوج حالة-إجراء في بيئة التعلم بالتعزيز.

📖

المصطلحات

التجارب المحاكاة

عينات مولودة صناعياً بالنموذج الداخلي للبيئة لتسريع التعلم بدون الحاجة لتفاعلات حقيقية إضافية.

📖

المصطلحات

تحديث القيمة

عملية تكرارية لتعديل تقديرات قيمة الإجراء Q(s,a) القائمة على المكافآت الملاحظة وقيم الحالات المستقبلية وفقاً لمعادلة بيلمان.

📖

المصطلحات

ذاكرة التجارب

بنية بيانات تخزن الثلاثيات (الحالة، الإجراء، المكافأة، الحالة التالية) للسماح بالتحديثات المتكررة أثناء مرحلة التخطيط.

📖

المصطلحات

Dyna-Q+

امتداد لـ Dyna-Q يدمج آلية استكشاف تعتمد على الوقت المنقضي منذ آخر زيارة للحالة-الإجراء لاكتشاف والتكيف مع التغيرات البيئية.

📖

المصطلحات

أولوية المسح

متغير من Dyna-Q حيث يتم إعطاء الأولوية للتحديثات حسب تأثيرها المحتمل على القيم، مما يحسن الكفاءة الحسابية لمرحلة التخطيط.

📖

المصطلحات

أثر التخطيط

تسريع التعلم الذي لوحظ عندما يزداد عدد خطط التخطيط لكل خطوة حقيقية، حتى نقطة العائد المتناقص.

📖

المصطلحات

تقارب الخوارزمية

خاصية تضمن أن تقديرات قيمة Dyna-Q تتقارب نحو القيم المثلى في ظل شروط معينة من النموذج الدقيق والزيارات اللانهائية.

📖

المصطلحات

خطأ النموذج

الفرق بين السلوك الفعلي للبيئة وتنبؤات النموذج المكتسب، والذي يمكن أن يؤثر سلباً على الأداء إذا لم يتم التحكم فيه.

📖

المصطلحات

التعقيد الحسابي

التكلفة الحسابية لـ Dyna-Q التي تعتمد خطياً على حجم ذاكرة التجارب وعدد التحديثات التخطيطية لكل تكرار.

📖

المصطلحات

تعميم النموذج

القدرة على استقراء تنبؤات النموذج لحالات-إجراءات غير ملاحظة، غالباً ما تتم من خلال الشبكات العصبية أو مُقَرِّبات الوظائف الأخرى.

📖

المصطلحات

عينة مساحة الحالات

استراتيجية لاختيار التجارب المحاكاة من الذاكرة أثناء مرحلة التخطيط، والتي تؤثر على كفاءة تعلم Dyna-Q.

📖

المصطلحات

وظيفة التخطيط

مكون خوارزمي يقوم بإجراء تحديثات متكررة على التجارب المخزنة لتحسين تقديرات القيمة دون تفاعل جديد مع البيئة.

📖

المصطلحات

معدل التعلم التكيفي

آلية للتعديل الديناميكي لمعدل التعلم في Dyna-Q لتحسين التقارب مع الأخذ في الاعتبار تباين التجارب الحقيقية والمحاكاة.

قاموس الذكاء الاصطناعي

التعلم بالتعزيز القائم على النموذج

دينا-Q

التعلم المباشر

التخطيط في التعلم بالتعزيز

نموذج الانتقال

نموذج المكافأة

التجارب المحاكاة

تحديث القيمة

ذاكرة التجارب

Dyna-Q+

أولوية المسح

أثر التخطيط

تقارب الخوارزمية

خطأ النموذج

التعقيد الحسابي

تعميم النموذج

عينة مساحة الحالات

وظيفة التخطيط

معدل التعلم التكيفي

لم يتم العثور على نتائج