Aprendizagem por Reforço para Otimização
Algoritmo Ator-Crítico
Arquitetura que combina um ator que seleciona as ações de acordo com uma política e um crítico que avalia essas ações, permitindo uma aprendizagem mais estável e eficiente.
← Voltar