Otimização por Bandidos
Bandido Gradiente
Algoritmo que utiliza estimativas de gradiente para ajustar as preferências de ação com base nas recompensas recebidas.
← VoltarAlgoritmo que utiliza estimativas de gradiente para ajustar as preferências de ação com base nas recompensas recebidas.
← Voltar