Decision Transformer

📖

termos

Arquitetura transformer que modela a aprendizagem por reforço offline como um problema de sequência-para-sequência, prevendo ações futuras com base em estados passados e retornos cumulativos.

📖

termos

Modelagem de Trajetória

Abordagem que consiste em modelar trajetórias completas (estados, ações, recompensas) como sequências contínuas para a aprendizagem de políticas no RL offline.

📖

termos

Arquitetura tipo GPT

Estrutura de rede neural baseada no decodificador de transformer com atenção causal, adaptada para a previsão autorregressiva em tarefas de sequência.

📖

termos

Extração de Política

Processo de derivar uma política de decisão a partir de um modelo de sequência treinado, onde o transformer gera ações condicionadas pelos estados e retornos desejados.

📖

termos

Previsão de Ação

Tarefa principal do Decision Transformer que consiste em prever a ação ótima no passo t+1, dado o estado t e o retorno-a-vir desejado.

📖

termos

Representação de Estado

Codificação vetorial do estado do ambiente integrada na sequência de entrada do transformer, capturando as informações relevantes para a decisão.

📖

termos

Trajectory Transformer

Variante do Decision Transformer que modela explicitamente a distribuição conjunta sobre as trajetórias completas para gerar sequências de ações coerentes.

📖

termos

Comprimento do Contexto

Número máximo de tokens (estados, ações, recompensas) que o transformer pode processar simultaneamente em sua janela de atenção.

📖

termos

Decodificador Transformer

Componente principal do Decision Transformer que utiliza atenção mascarada para gerar sequencialmente ações futuras.

📖

termos

Condicionamento de Sequência

Estratégia onde as previsões futuras são condicionadas pela sequência completa de eventos passados, em vez de apenas um estado atual.

📖

termos

Conjunto de Dados Offline

Conjunto de dados estático contendo trajetórias (estados, ações, recompensas) coletadas por uma política comportamental, utilizado para o treinamento offline.

Glossário IA