التعلم بواسطة Dyna-Q
وظيفة التخطيط
مكون خوارزمي يقوم بإجراء تحديثات متكررة على التجارب المخزنة لتحسين تقديرات القيمة دون تفاعل جديد مع البيئة.
← رجوعمكون خوارزمي يقوم بإجراء تحديثات متكررة على التجارب المخزنة لتحسين تقديرات القيمة دون تفاعل جديد مع البيئة.
← رجوع