قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
التعلم النشط بالتعزيز
منهجية هجينة تجمع بين مبادئ التعلم النشط والتعلم بالتعزيز لتحسين اختيار العينات المراد توصيفها.
سياسة اختيار العينات
استراتيجية حتمية أو عشوائية تحدد البيانات التي يجب طلب توصيفها لتعظيم تحسين النموذج في ظل قيود الميزانية.
وكيل التعلم بالتعزيز
كيان خوارزمي يتعلم اتخاذ قرارات مثالية لاختيار العينات من خلال التفاعل مع بيئة التوصيف.
دالة المكافأة
إشارة تكم فائدة كل إجراء لاختيار العينة، وعادة ما تكون مبنية على تحسين أداء النموذج.
قيمة الحالة-الإجراء
دالة Q(s,a) التي تقدر المكافأة التراكمية المتوقعة عند اختيار الإجراء a من الحالة s واتباع السياسة المثلى.
التعلم بالتعزيز العميق
امتداد للتعلم بالتعزيز يستخدم الشبكات العصبية العميقة لتقريب دوال القيمة أو السياسات.
التعلم النشط القائم على عدم اليقين
استراتيجية يختار فيها الوكيل تفضيلياً العينات التي يظهر النموذج أكبر قدر من عدم اليقين التنبؤي تجاهها.
الاختيار الاستراتيجي للعينات
عملية قرار محسنة تهدف إلى تحديد المجموعات الفرعية من البيانات التي تعظم المكسب المعلوماتي مقابل تكلفة التوصيف.
التعلم بالتعزيز خارج السياسة
طريقة تتيح تعلم سياسة مثالية باتباع سياسة سلوكية أخرى، وهي مفيدة للاستكشاف المرن.
التعلم بالتعزيز عبر الإنترنت
نموذج حيث يتعلم الوكيل ويختار العينات في وقت واحد أثناء التعليق التوضيحي، مع تكييف استراتيجيته ديناميكيًا.
التوازن بين التعلم والتعليق التوضيحي
تحسين التوازن بين الوقت المخصص للاختيار الذكي والمكاسب المحتملة في أداء النموذج.
استراتيجية اكتساب البيانات
خطة عمل منهجية لتحديد وجمع البيانات الأكثر صلة للتعليق التوضيحي وفقًا لمعايير محددة مسبقًا.
التعلم بالتعزيز متعدد الوكلاء
امتداد يتعاون فيه عدة وكلاء أو يتنافسون لتحسين استراتيجية اختيار العينات بشكل مشترك.
خوارزمية التعلم النشط Q-Learning
متغير من خوارزمية Q-learning مكيف للتعلم النشط، حيث تتوافق الإجراءات مع اختيار العينات المراد تعليقها توضيحيًا.
سياسة الاستكشاف الموجه
استراتيجية استكشاف موجهة نحو المناطق في فضاء البيانات التي يحتمل أن تكون الأكثر إفادة للنموذج.
التعلم بالتعزيز البيزي
طريقة تدمج عدم اليقين في تقدير دوال القيمة لاتخاذ قرارات أكثر قوة عند اختيار العينات.