قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
الاستنساخ السلوكي
تقنية التعلم بالاقتداء حيث يتعلم الوكيل مباشرة تكرار إجراءات الخبير عن طريق تقليل الخطأ بين توقعاته والعروض المقدمة. هذا النهج يحول مشكلة التعلم إلى مشكلة إشراف قياسية.
التعلم بالاقتداء
نموذج تعلم الآلة حيث يكتسب الوكيل المهارات من خلال ملاحظة وتكرار سلوك الخبراء، دون الحاجة إلى مكافآت صريحة. تتيح هذه الطريقة تسريع التعلم بالاستفادة من المعرفة الموجودة مسبقًا.
سياسة الإجراء
دالة رياضية ترسم كل حالة إلى توزيع احتمالات على الإجراءات الممكنة، وتحدد سلوك الوكيل. في الاستنساخ السلوكي، تتعلم هذه السياسة مباشرة من العروض الخبيرة.
العروض الخبيرة
مجموعة من المسارات أو أمثلة الحالات-الإجراءات التي يقدمها خبير بشري أو نظام أمثل، وتعمل كبيانات تدريب للتعلم بالاقتداء. هذه العروض تغلف الاستراتيجية المثلى المراد تكرارها.
خطأ التنبؤ
مقياس يحدد الفرق بين الإجراءات التي يتنبأ بها الوكيل وإجراءات الخبير في نفس الحالات، وغالبًا ما يتم حسابه عبر الخطأ التربيعي المتوسط أو تباعد KL. تقليل هذا الخطأ هو الهدف الرئيسي للاستنساخ السلوكي.
التعلم تحت الإشراف
إطار تعلم حيث يتم تدريب النموذج على أزواج الإدخال-الإخراج المسماة، ويستخدم في الاستنساخ السلوكي لتعلم سياسة الخبير. يتيح هذا النهج تحويل مشكلة الاقتداء إلى مهمة تصنيف أو انحدار.
توزيع الإجراءات
تمثيل احتمالي للإجراءات الممكنة في حالة معينة، يلتقط تفضيلات وعدم يقين الخبير. يهدف الاستنساخ السلوكي إلى تكرار هذا التوزيع بدلاً من إجراء واحد حتمي.
التعميم
قدرة النموذج المستنسخ على الأداء بشكل صحيح على الحالات غير المرئية خلال التدريب، وهو أمر حاسم لتطبيق الاستنساخ السلوكي بشكل قوي. التعميم الجيد يتفادى التدريب الزائد على العروض المحددة.
التعلم الزائد
ظاهرة حيث يتعلم النموذج بوضوح العروض التدريبية لكنه يفشل في التعميم على مواقف جديدة، مما يحد من فعالية الاستنساخ السلوكي. هذه المشكلة تتفاقم بسبب ارتباط البيانات في المسارات.
التعلم دون اتصال
النهج الذي يتعلم فيه الوكيل حصريًا من مجموعة بيانات ثابتة بدون تفاعل مع البيئة، وهي السمة الرئيسية للاستنساخ السلوكي. هذا النهج يزيل التكاليف والمخاطر المرتبطة بالاستكشاف النشط.
تصحيح الخطأ
قدرة نظام الاستنساخ السلوكي على التعافي بعد ارتكاب خطأ، غالبًا ما تكون محدودة بسبب عدم وجود خبرة في الحالات غير الصحيحة. هذا القيود يحفز استخدام تقنيات هجينة مع التعلم المعزز.
التعلم المعزز
نهج تعلم حيث يحقق الوكيل مكافأة تراكمية بالتجربة والخطأ، غالبًا ما يتم دمجه مع الاستنساخ السلوكي لتحسين المتانة. هذا النهج يسمح بتصحيح الأخطاء غير الموجودة في العروض.
الاستنساخ العكسي
عملية استنتاج وظيفة المكافأة أو النوايا الأساسية من العروض الخبيرة، بديل للاستنساخ السلوكي المباشر. هذا النهج يسمح بتعميم أفضل ولكنه أكثر تعقيدًا في التنفيذ.
التعلم المعزز الاستنساخي
عائلة من الخوارزميات التي تجمع بين التعلم بالاستنساخ والتعلم المعزز للاستفادة من مزايا كلا النهجين، باستخدام العروض كدليل للاستكشاف. هذه الأساليب تحسن المتانة وتصحيح الأخطاء.
تباعد السياسة
ظاهرة حيث تنحرف السياسة المتعلمة تدريجيًا عن السياسة الخبيرة خلال التفاعل مع البيئة، مما ي compromise الأداء. هذا التباعد هو قيود رئيسية للاستنساخ السلوكي النقي.
استقرار التعلم
خاصية خوارزمية التعلم في التقارب بشكل متوقع نحو حل مرضٍ بدون تذبذبات أو تباعد، وهي حاسمة في أنظمة الاستنساخ السلوكي. الاستقرار يعتمد على جودة وتغطية العروض.
نقل المعرفة
القدرة على تطبيق المهارات المكتسبة من خلال استنساخ السلوك على مهام أو بيئات متشابهة ولكن مختلفة، وهو أمر ضروري للتوسع. يتطلب النقل الناجح تمثيلاً قوياً وثابتاً للحالات.