Aprendizagem por Dyna-Q
Função de planejamento
Componente algorítmico que realiza atualizações repetidas sobre as experiências armazenadas para refinar as estimativas de valor sem nova interação ambiental.
← Voltar