RL Multi-Objetivo Contínuo
RL com Espaço de Ação Contínuo
Paradigma de aprendizagem por reforço onde o agente pode escolher entre uma infinidade de ações contínuas, exigindo algoritmos de otimização adaptados como PPO ou SAC.
← Voltar