التعلم بواسطة Dyna-Q
نموذج المكافأة
دالة متعلمة تتنبأ بالمكافأة المتوقعة لكل زوج حالة-إجراء في بيئة التعلم بالتعزيز.
← رجوعدالة متعلمة تتنبأ بالمكافأة المتوقعة لكل زوج حالة-إجراء في بيئة التعلم بالتعزيز.
← رجوع