التعلم المعزز في الوقت الحقيقي
التعلم Q في البث المباشر
نوع مختلف من خوارزمية التعلم Q محسّن لمعالجة البيانات المستمرة، حيث يقوم بتحديث جدول قيم Q مع وصول التجارب الجديدة. تحافظ هذه الطريقة على التوازن بين الاستكشاف والاستغلال في البيئات غير الثابتة.
← رجوع