Aprendizagem Temporal Diferencial
Algoritmo Q-learning
Método TD off-policy que aprende diretamente a função de valor ótima usando a melhor ação possível no próximo estado, independentemente da política seguida.
← Voltar