Trajectory Transformer
Modelagem de Sequências
Abordagem que formaliza o aprendizado por reforço como um problema de modelagem de sequências, onde estados, ações e recompensas são tratados como tokens em uma sequência temporal.
← Voltar