Q-learning مزدوج
تفكيك الخطأ
تحليل رياضي يوضح كيف يمكن تفكيك الخطأ في التعلم بالتعزيز إلى تحيّز وتباين، ويقلل التعلم Q المزدوج تحديدًا من مكون تحيّز الأقصى.
← رجوعتحليل رياضي يوضح كيف يمكن تفكيك الخطأ في التعلم بالتعزيز إلى تحيّز وتباين، ويقلل التعلم Q المزدوج تحديدًا من مكون تحيّز الأقصى.
← رجوع