Q-learning
Processo de Decisão de Markov
Estrutura matemática para modelar problemas de decisão sequencial onde os estados futuros dependem apenas do estado atual e da ação, respeitando a propriedade de Markov.
← Voltar