تجميع بيانات DAgger - مسرد الذكاء الاصطناعي

📖

المصطلحات

DAgger (Dataset Aggregation)

خوارزمية التعلم بالتقليد التي تجمع البيانات بشكل تكراري من خلال استجواب الخبير حول الحالات التي تتم زيارتها بواسطة السياسة الحالية. هذا النهج يقلل من الفجوة بين توزيع التدريب وتوزيع النشر.

📖

المصطلحات

أجريغاسيان دي دوينيه

عملية جمع ودمج مجموعات بيانات متعددة من مصادر مختلفة أو تكرارات التعلم المختلفة. في داجر، هذا يحسن تدريجياً قوة السياسة المتعلمة.

📖

المصطلحات

التجميع التكراري

منهجية جمع البيانات التي تتم في عدة دورات متتالية، كل دورة تستخدم معلومات من الدورات السابقة. هذا النهج يسمح بتحسين السياسة باستمرار واستكشاف حالات جديدة.

📖

المصطلحات

السياسة السلوكية

استراتيجية أو توزيع احتمالي على الإجراءات التي يتبعها الوكيل أثناء جمع البيانات في داجر. تتطور مع التكرارات لتقترب من السياسة المثلى.

📖

المصطلحات

توزيع الحالات

المجموعة الاحتمالية للحالات التي من المرجح أن يستهدفها الوكيل أثناء تنفيذه. تسعى داجر إلى مواءمة هذا التوزيع مع ذلك الذي يتم مواجهته في النشر الفعلي.

📖

المصطلحات

تحيز التوزيع

الفرق بين توزيع بيانات التدريب وتوزيع البيانات الذي يتم مواجهته أثناء النشر في الإنتاج. داجر يقلل هذا التحيز عن طريق جمع البيانات على الحالات التي تتم زيارتها فعلياً بواسطة السياسة الحالية.

📖

المصطلحات

تصحيح الخطأ

العملية التي يقدم من خلالها الخبير الإجراءات الصحيحة عندما ترتكب سياسة الوكيل الحالية أخطاء. هذه التصحيحات تعمل كبيانات تدريب جديدة لتحسين السياسة.

📖

المصطلحات

استجواب الخبير

آلية طلب الإجراءات المثلى من خبير بشري أو نظام لحالات محددة تتم زيارتها بواسطة الوكيل. هذه الاستجوابات ضرورية لتوليد بيانات تدريب عالية الجودة.

📖

المصطلحات

الولاية التي تمت زيارتها

تكوين أو موقف معين للبيئة يصل إليه الوكيل عند تنفيذ سياسته الحالية. تصبح هذه الولايات نقاط استفهام للخبير في DAgger.

📖

المصطلحات

السياسة الحالية

النسخة الحالية من استراتيجية اتخاذ القرار للوكيل التي تتطور في كل تكرار لخوارزمية DAgger. تستخدم لاستكشاف البيئة وتحديد الولايات التي تتطلب تصحيحات من الخبير.

📖

المصطلحات

التجميع التكيفي

متغير من DAgger يقوم بتعديل ديناميكي لنسبة الإجراءات الخبيرة مقابل إجراءات السياسة الحالية. هذا التكيف يوازن بين الاستكشاف والاستغلال خلال التعلم.

📖

المصطلحات

حلقة التغذية الراجعة

دورة مستمرة حيث أداء السياسة الحالية يولد ولايات جديدة، والتي بدورها تتطلب تصحيحات من الخبير. هذه الحلقة التكرارية هي الآلية الأساسية للتحسين في DAgger.

📖

المصطلحات

التصحيح عبر الإنترنت

عملية تدخل خبير تحدث أثناء التنفيذ الفوري لسياسة الوكيل. هذه التصحيحات الفورية تتجنب انتشار الأخطاء في المسارات.

📖

المصطلحات

توزيع المسارات

مجموعة متواليات الولايات والإجراءات التي يولدها الوكيل باتباع سياسته الحالية. يهدف DAgger إلى مواءمة هذا التوزيع مع الذي تنتجه السياسة الخبيرة المثلى.

📖

المصطلحات

السياسة المستهدفة

السياسة المثلى التي يسعى الوكيل إلى تقليدها، عادةً ما تمثلها عروض الخبير. هدف DAgger هو جعل السياسة المتعلمة تتقارب نحو هذه السياسة المستهدفة.

📖

المصطلحات

التجميع التدريجي

استراتيجية تراكم البيانات حيث كل تكرار جديد يضيف معلومات تكميلية للبيانات الموجودة. هذا النهج يضمن تغطية متزايدة لفضاء الولايات الملائم.

📖

المصطلحات

خطأ الضغط

الفرق في الأداء بين السياسة المستفادة والسياسة الخبيرة بسبب قيود التمثيل. DAgger يقلل هذا الخطأ عن طريق جمع بيانات حول التوزيع الفعلي للحالات.

قاموس الذكاء الاصطناعي

DAgger (Dataset Aggregation)

أجريغاسيان دي دوينيه

التجميع التكراري

السياسة السلوكية

توزيع الحالات

تحيز التوزيع

تصحيح الخطأ

استجواب الخبير

الولاية التي تمت زيارتها

السياسة الحالية

التجميع التكيفي

حلقة التغذية الراجعة

التصحيح عبر الإنترنت

توزيع المسارات

السياسة المستهدفة

التجميع التدريجي

خطأ الضغط

لم يتم العثور على نتائج