التعلم بالفضول القائم على النموذج - مسرد الذكاء الاصطناعي

📖

المصطلحات

نموذج الديناميكية

نموذج يتعلمه الوكيل الذي يتنبأ بتطور البيئة، أي الحالة أو الملاحظة التالية بالنظر إلى الحالة الحالية والإجراء المتخذ. جودة هذا النموذج هي محورية للتعلم بالفضول القائم على النموذج.

📖

المصطلحات

وحدة الفضول الجوهرية (ICM)

بنية شبكة عصبية محددة تجمع بين وحدة تنبؤ الحالة التالية في فضاء الخصائص ووحدة عكسية للتنبؤ بالإجراء. يتم استخدام خطأ التنبؤ للوحدة الأمامية كمكافأة جوهرية.

📖

المصطلحات

الاستكشاف بالفضول

استراتيجية استكشاف حيث يتم تحفيز الوكيل لزيارة حالات البيئة التي تزيد من تعلمه، المقاس بإشارات داخلية مثل خطأ التنبؤ. يبحث الوكيل بنشاط عما لا يعرفه.

📖

المصطلحات

مشكلة التلفزيون العشوائي

تحدٍ رئيسي في التعلم بالفضول حيث يمكن أن يهتم الوكيل بمصادر إنتروبية غير متوقعة ولكنها غير مفيدة، مثل شاشة تلفزيون ثابتة. هذا يؤدي إلى مكافأة جوهرية عالية بدون تعلم كبير على ديناميكية البيئة.

📖

المصطلحات

فضاء الحالات الكامنة

تمثيل مضغوط ومجرد للبيئة، يتعلمه شبكة عصبية، حيث يتعلم نموذج الديناميكية للتنبؤ. العمل في هذا الفضاء يقلل من التعقيد ويساعد على التركيز على الخصائص ذات الصلة بالتنبؤ.

📖

المصطلحات

تشكيل المكافأة الجوهرية

عملية تصميم وترجيح إشارة المكافأة الجوهرية، غالبًا عن طريق دمجها مع مكافأة خارجية للمهمة. التشكيل الجيد حاسم لموازنة الاستكشاف والاستغلال.

📖

المصطلحات

تعلم النموذج

العملية التي يحسن بها وكيل MBRL نموذج ديناميكيته من خلال التفاعل مع البيئة. هذه العملية متكررة: يتم استخدام النموذج للاستكشاف، والبيانات الجديدة المجمعة تستخدم لتحسين النموذج.

📖

المصطلحات

المفاجأة النمطية

مفهوم يشير إلى حالة حيث تتجربة الوكيل تتعارض مع توقعات نموذجه الداخلي للعالم. في الأنظمة القائمة على النموذج، يتم قياس المفاجأة مباشرة بخطأ التنبؤ للنموذج.

📖

المصطلحات

شبكة التنبؤ

المكون العصبي لنموذج الديناميكية المسؤول عن توليد تنبؤ الحالة الكامنة التالية. أداؤه، الذي يتم تقييمه بواسطة دالة الخسارة، يحدد مباشرة إشارة الفضول.

📖

المصطلحات

إطار التعلم بالتعزيز الجوهري

بنية عامة للتعلم بالتعزيز حيث تكون دالة الهدف للوكيل هي مجموع مرجح لمكافأة خارجية (مرتبطة بالمهمة) ومكافأة جوهرية (مرتبطة بالاستكشاف).

📖

المصطلحات

الاستكشاف عن طريق تعظيم المعلومات المتغيرة (VIME)

طريقة رسمية تستخدم الاستدلال المتغير لزيادة المعلومات المكتسبة حول معلمات نموذج البيئة. توفر مقياسًا للفضول مأسسًا نظريًا يتجنب بعض الفخاخ.

📖

المصطلحات

حد الفضول

آلية أو قيد نظري يهدف إلى تحديد فضول الوكيل لتوجيهه نحو جوانب البيئة التي تكون غير معروفة وقابلة للتحكم/التعلم في نفس الوقت. يساعد هذا في التخفيف من مشكلة التلفزيون العشوائي.

قاموس الذكاء الاصطناعي

نموذج الديناميكية

وحدة الفضول الجوهرية (ICM)

الاستكشاف بالفضول

مشكلة التلفزيون العشوائي

فضاء الحالات الكامنة

تشكيل المكافأة الجوهرية

تعلم النموذج

المفاجأة النمطية

شبكة التنبؤ

إطار التعلم بالتعزيز الجوهري

الاستكشاف عن طريق تعظيم المعلومات المتغيرة (VIME)

حد الفضول

لم يتم العثور على نتائج