التعلم بالتعزيز متعدد الأهداف المستمر
الممثل-الناقد متعدد الأهداف
بنية خوارزمية تجمع بين الممثل والناقد المكيّفين لمشاكل متعددة الأهداف، مع دوال قيم متجهة وسياسات متعددة الأهداف.
← رجوعبنية خوارزمية تجمع بين الممثل والناقد المكيّفين لمشاكل متعددة الأهداف، مع دوال قيم متجهة وسياسات متعددة الأهداف.
← رجوع