قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
التعلم خارج السياسة
طريقة تعلم حيث يتعلم الوكيل سياسة مثالية أثناء اتباعه لسياسة سلوك أخرى، مما يسمح باستكشاف أفضل.
الشبكات المستهدفة
شبكات عصبية مكررة بأوزان يتم تحديثها ببطء لاستقرار التعلم من خلال توفير أهداف أكثر اتساقًا.
عملية أورنشتاين-أولينبيك
عملية عشوائية تستخدم لتوليد ضوضاء مرتبطة زمنياً في الإجراءات، مما يسهل الاستكشاف الفعال في المساحات المستمرة.
مساحة الإجراء المستمرة
بيئة حيث يمكن للإجراءات أن تأخذ أي قيمة في فترة مستمرة، مما يتطلب خوارزميات متكيفة على عكس الإجراءات المنفصلة.
تقريب دالة الشبكة العصبية
استخدام الشبكات العصبية لتقريب وظائف معقدة مثل السياسات أو وظائف القيمة في التعلم المعزز.
التحديث الناعم
طريقة التحديث التدريجي للشبكات المستهدفة باستخدام معامل tau (τ) لخلط أوزان الشبكات الرئيسية والمستهدفة ببطء.
شبكة الممثل
شبكة عصبية تتعلم تحويل الحالات مباشرة إلى الإجراءات المثلى في مساحة الإجراء المستمرة.
السياسة الحتمية
سياسة تربط إجراءً محددًا بكل حالة، على عكس السياسات العشوائية التي تعيد توزيعات الاحتمالات.
ضوضاء الإجراء
ضوضاء مضافة إلى الإجراءات التي ينتجها الممثل لتشجيع استكشاف مساحة الإجراء المستمرة أثناء التدريب