Aprendizagem por Diferenciação de Modelos
RL Baseado em Modelo Diferenciável
Abordagem de aprendizado por reforço onde os gradientes são retropropagados através de um modelo diferenciável do ambiente para otimizar diretamente as políticas.
← Voltar