Optimización por Bandidos
Bandido de gradiente
Algoritmo que utiliza estimaciones de gradiente para ajustar las preferencias de acción basadas en las recompensas recibidas.
← VolverAlgoritmo que utiliza estimaciones de gradiente para ajustar las preferencias de acción basadas en las recompensas recibidas.
← Volver