قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
MuZero
خوارزمية التعلم بالتعزيز التي تتعلم في نفس الوقت نموذج انتقال ومكافأة وقيمة دون أي معرفة مسبقة بالديناميكية للبيئة.
نموذج القيمة
شبكة عصبية في MuZero التي تقدر القيمة المتوقعة للحالات المستقبلية، موجهة عملية التخطيط نحو الإجراءات الأكثر واعدة.
MCTS (بحث شجرة مونتي كارلو)
خوارزمية البحث الشجري المستخدمة في MuZero لاستكشاف مساحة الإجراءات المستقبلية بفعالية من خلال موازنة الاستغلال والاستكشاف في المحاكاة.
التخطيط
العملية التي يستخدم بها MuZero نموذجه المتعلم لمحاكاة وتقييم تسلسلات مختلفة من الإجراءات قبل اختيار أفضل إجراء للتنفيذ.
AlphaZero
خوارزمية سابقة لـ MuZero التي كانت تتطلب معرفة بقواعد اللعبة، على عكس MuZero الذي يتعلم نموذج البيئة ديناميكيًا.
اللعب الذاتي
طريقة تدريب حيث يلعب MuZero ضد نفسه لإنشاء بيانات تعلم، مما يسمح بتحسين مستمر بدون تدخل بشري.
مخزن التشغيل المؤقت
هيكل بيانات يخزن التجارب السابقة التي يعيد استخدامها MuZero لتدريب شبكاته بشكل فعال ومستقر.
التعميم في التخطيط
قدرة MuZero على تطبيق نموذجه المتعلم على حالات جديدة غير مُشاهدة خلال التدريب، مما يدل على قوة متميزة.
شبكة القيمة
شبكة عصبية تقوم بتقييم جودة حالة معينة من خلال التنبؤ بمجموع المكافآت المستقبلية المتوقعة من هذه الحالة.
شبكة السياسة
مكون في MuZero يقترح توزيع احتمالي على الإجراءات الممكنة، موجهًا الاستكشاف أثناء بحث MCTS.
التشغيل الذاتي
تقنية يستخدم فيها MuZero تنبؤاته الخاصة للتحسن بشكل متكرر، مما ينشئ دورة من التحسن الذاتي دون إشراف خارجي.
التعلم بالخيال
عملية يتعلم بها MuZero من المحاكاة الداخلية بدلاً من التفاعلات الحقيقية، مما يسمح له باستكشاف مساحة الحالات بكفاءة.
سياسة البحث
استراتيجية يستخدمها MuZero لاختيار الإجراءات التي سيتم استكشافها أثناء بحث MCTS، مع تحقيق التوازن الأمثل بين الاستكشاف والاستغلال.