قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
DAgger (Dataset Aggregation)
خوارزمية التعلم بالتقليد التي تجمع البيانات بشكل تكراري من خلال استجواب الخبير حول الحالات التي تتم زيارتها بواسطة السياسة الحالية. هذا النهج يقلل من الفجوة بين توزيع التدريب وتوزيع النشر.
أجريغاسيان دي دوينيه
عملية جمع ودمج مجموعات بيانات متعددة من مصادر مختلفة أو تكرارات التعلم المختلفة. في داجر، هذا يحسن تدريجياً قوة السياسة المتعلمة.
التجميع التكراري
منهجية جمع البيانات التي تتم في عدة دورات متتالية، كل دورة تستخدم معلومات من الدورات السابقة. هذا النهج يسمح بتحسين السياسة باستمرار واستكشاف حالات جديدة.
السياسة السلوكية
استراتيجية أو توزيع احتمالي على الإجراءات التي يتبعها الوكيل أثناء جمع البيانات في داجر. تتطور مع التكرارات لتقترب من السياسة المثلى.
توزيع الحالات
المجموعة الاحتمالية للحالات التي من المرجح أن يستهدفها الوكيل أثناء تنفيذه. تسعى داجر إلى مواءمة هذا التوزيع مع ذلك الذي يتم مواجهته في النشر الفعلي.
تحيز التوزيع
الفرق بين توزيع بيانات التدريب وتوزيع البيانات الذي يتم مواجهته أثناء النشر في الإنتاج. داجر يقلل هذا التحيز عن طريق جمع البيانات على الحالات التي تتم زيارتها فعلياً بواسطة السياسة الحالية.
تصحيح الخطأ
العملية التي يقدم من خلالها الخبير الإجراءات الصحيحة عندما ترتكب سياسة الوكيل الحالية أخطاء. هذه التصحيحات تعمل كبيانات تدريب جديدة لتحسين السياسة.
استجواب الخبير
آلية طلب الإجراءات المثلى من خبير بشري أو نظام لحالات محددة تتم زيارتها بواسطة الوكيل. هذه الاستجوابات ضرورية لتوليد بيانات تدريب عالية الجودة.
الولاية التي تمت زيارتها
تكوين أو موقف معين للبيئة يصل إليه الوكيل عند تنفيذ سياسته الحالية. تصبح هذه الولايات نقاط استفهام للخبير في DAgger.
السياسة الحالية
النسخة الحالية من استراتيجية اتخاذ القرار للوكيل التي تتطور في كل تكرار لخوارزمية DAgger. تستخدم لاستكشاف البيئة وتحديد الولايات التي تتطلب تصحيحات من الخبير.
التجميع التكيفي
متغير من DAgger يقوم بتعديل ديناميكي لنسبة الإجراءات الخبيرة مقابل إجراءات السياسة الحالية. هذا التكيف يوازن بين الاستكشاف والاستغلال خلال التعلم.
حلقة التغذية الراجعة
دورة مستمرة حيث أداء السياسة الحالية يولد ولايات جديدة، والتي بدورها تتطلب تصحيحات من الخبير. هذه الحلقة التكرارية هي الآلية الأساسية للتحسين في DAgger.
التصحيح عبر الإنترنت
عملية تدخل خبير تحدث أثناء التنفيذ الفوري لسياسة الوكيل. هذه التصحيحات الفورية تتجنب انتشار الأخطاء في المسارات.
توزيع المسارات
مجموعة متواليات الولايات والإجراءات التي يولدها الوكيل باتباع سياسته الحالية. يهدف DAgger إلى مواءمة هذا التوزيع مع الذي تنتجه السياسة الخبيرة المثلى.
السياسة المستهدفة
السياسة المثلى التي يسعى الوكيل إلى تقليدها، عادةً ما تمثلها عروض الخبير. هدف DAgger هو جعل السياسة المتعلمة تتقارب نحو هذه السياسة المستهدفة.
التجميع التدريجي
استراتيجية تراكم البيانات حيث كل تكرار جديد يضيف معلومات تكميلية للبيانات الموجودة. هذا النهج يضمن تغطية متزايدة لفضاء الولايات الملائم.
خطأ الضغط
الفرق في الأداء بين السياسة المستفادة والسياسة الخبيرة بسبب قيود التمثيل. DAgger يقلل هذا الخطأ عن طريق جمع بيانات حول التوزيع الفعلي للحالات.