Aprendizagem por Reforço para Otimização
Política Epsilon-Greedy
Estratégia de seleção de ação onde com probabilidade ε o agente explora (escolhe uma ação aleatória) e com probabilidade 1-ε ele explora (escolhe a melhor ação conhecida).
← Voltar