قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
نموذج الديناميكية
نموذج يتعلمه الوكيل الذي يتنبأ بتطور البيئة، أي الحالة أو الملاحظة التالية بالنظر إلى الحالة الحالية والإجراء المتخذ. جودة هذا النموذج هي محورية للتعلم بالفضول القائم على النموذج.
وحدة الفضول الجوهرية (ICM)
بنية شبكة عصبية محددة تجمع بين وحدة تنبؤ الحالة التالية في فضاء الخصائص ووحدة عكسية للتنبؤ بالإجراء. يتم استخدام خطأ التنبؤ للوحدة الأمامية كمكافأة جوهرية.
الاستكشاف بالفضول
استراتيجية استكشاف حيث يتم تحفيز الوكيل لزيارة حالات البيئة التي تزيد من تعلمه، المقاس بإشارات داخلية مثل خطأ التنبؤ. يبحث الوكيل بنشاط عما لا يعرفه.
مشكلة التلفزيون العشوائي
تحدٍ رئيسي في التعلم بالفضول حيث يمكن أن يهتم الوكيل بمصادر إنتروبية غير متوقعة ولكنها غير مفيدة، مثل شاشة تلفزيون ثابتة. هذا يؤدي إلى مكافأة جوهرية عالية بدون تعلم كبير على ديناميكية البيئة.
فضاء الحالات الكامنة
تمثيل مضغوط ومجرد للبيئة، يتعلمه شبكة عصبية، حيث يتعلم نموذج الديناميكية للتنبؤ. العمل في هذا الفضاء يقلل من التعقيد ويساعد على التركيز على الخصائص ذات الصلة بالتنبؤ.
تشكيل المكافأة الجوهرية
عملية تصميم وترجيح إشارة المكافأة الجوهرية، غالبًا عن طريق دمجها مع مكافأة خارجية للمهمة. التشكيل الجيد حاسم لموازنة الاستكشاف والاستغلال.
تعلم النموذج
العملية التي يحسن بها وكيل MBRL نموذج ديناميكيته من خلال التفاعل مع البيئة. هذه العملية متكررة: يتم استخدام النموذج للاستكشاف، والبيانات الجديدة المجمعة تستخدم لتحسين النموذج.
المفاجأة النمطية
مفهوم يشير إلى حالة حيث تتجربة الوكيل تتعارض مع توقعات نموذجه الداخلي للعالم. في الأنظمة القائمة على النموذج، يتم قياس المفاجأة مباشرة بخطأ التنبؤ للنموذج.
شبكة التنبؤ
المكون العصبي لنموذج الديناميكية المسؤول عن توليد تنبؤ الحالة الكامنة التالية. أداؤه، الذي يتم تقييمه بواسطة دالة الخسارة، يحدد مباشرة إشارة الفضول.
إطار التعلم بالتعزيز الجوهري
بنية عامة للتعلم بالتعزيز حيث تكون دالة الهدف للوكيل هي مجموع مرجح لمكافأة خارجية (مرتبطة بالمهمة) ومكافأة جوهرية (مرتبطة بالاستكشاف).
الاستكشاف عن طريق تعظيم المعلومات المتغيرة (VIME)
طريقة رسمية تستخدم الاستدلال المتغير لزيادة المعلومات المكتسبة حول معلمات نموذج البيئة. توفر مقياسًا للفضول مأسسًا نظريًا يتجنب بعض الفخاخ.
حد الفضول
آلية أو قيد نظري يهدف إلى تحديد فضول الوكيل لتوجيهه نحو جوانب البيئة التي تكون غير معروفة وقابلة للتحكم/التعلم في نفس الوقت. يساعد هذا في التخفيف من مشكلة التلفزيون العشوائي.