التعلم النشط بالتعزيز

📖

المصطلحات

منهجية هجينة تجمع بين مبادئ التعلم النشط والتعلم بالتعزيز لتحسين اختيار العينات المراد توصيفها.

📖

المصطلحات

سياسة اختيار العينات

استراتيجية حتمية أو عشوائية تحدد البيانات التي يجب طلب توصيفها لتعظيم تحسين النموذج في ظل قيود الميزانية.

📖

المصطلحات

وكيل التعلم بالتعزيز

كيان خوارزمي يتعلم اتخاذ قرارات مثالية لاختيار العينات من خلال التفاعل مع بيئة التوصيف.

📖

المصطلحات

دالة المكافأة

إشارة تكم فائدة كل إجراء لاختيار العينة، وعادة ما تكون مبنية على تحسين أداء النموذج.

📖

المصطلحات

قيمة الحالة-الإجراء

دالة Q(s,a) التي تقدر المكافأة التراكمية المتوقعة عند اختيار الإجراء a من الحالة s واتباع السياسة المثلى.

📖

المصطلحات

التعلم بالتعزيز العميق

امتداد للتعلم بالتعزيز يستخدم الشبكات العصبية العميقة لتقريب دوال القيمة أو السياسات.

📖

المصطلحات

التعلم النشط القائم على عدم اليقين

استراتيجية يختار فيها الوكيل تفضيلياً العينات التي يظهر النموذج أكبر قدر من عدم اليقين التنبؤي تجاهها.

📖

المصطلحات

الاختيار الاستراتيجي للعينات

عملية قرار محسنة تهدف إلى تحديد المجموعات الفرعية من البيانات التي تعظم المكسب المعلوماتي مقابل تكلفة التوصيف.

📖

المصطلحات

التعلم بالتعزيز خارج السياسة

طريقة تتيح تعلم سياسة مثالية باتباع سياسة سلوكية أخرى، وهي مفيدة للاستكشاف المرن.

📖

المصطلحات

التعلم بالتعزيز عبر الإنترنت

نموذج حيث يتعلم الوكيل ويختار العينات في وقت واحد أثناء التعليق التوضيحي، مع تكييف استراتيجيته ديناميكيًا.

📖

المصطلحات

التوازن بين التعلم والتعليق التوضيحي

تحسين التوازن بين الوقت المخصص للاختيار الذكي والمكاسب المحتملة في أداء النموذج.

📖

المصطلحات

استراتيجية اكتساب البيانات

خطة عمل منهجية لتحديد وجمع البيانات الأكثر صلة للتعليق التوضيحي وفقًا لمعايير محددة مسبقًا.

📖

المصطلحات

التعلم بالتعزيز متعدد الوكلاء

امتداد يتعاون فيه عدة وكلاء أو يتنافسون لتحسين استراتيجية اختيار العينات بشكل مشترك.

📖

المصطلحات

خوارزمية التعلم النشط Q-Learning

متغير من خوارزمية Q-learning مكيف للتعلم النشط، حيث تتوافق الإجراءات مع اختيار العينات المراد تعليقها توضيحيًا.

📖

المصطلحات

سياسة الاستكشاف الموجه

استراتيجية استكشاف موجهة نحو المناطق في فضاء البيانات التي يحتمل أن تكون الأكثر إفادة للنموذج.

📖

المصطلحات

التعلم بالتعزيز البيزي

طريقة تدمج عدم اليقين في تقدير دوال القيمة لاتخاذ قرارات أكثر قوة عند اختيار العينات.

قاموس الذكاء الاصطناعي