Glossário IA
O dicionário completo da Inteligência Artificial
Decision Transformer
Arquitetura transformer que modela a aprendizagem por reforço offline como um problema de sequência-para-sequência, prevendo ações futuras com base em estados passados e retornos cumulativos.
Modelagem de Trajetória
Abordagem que consiste em modelar trajetórias completas (estados, ações, recompensas) como sequências contínuas para a aprendizagem de políticas no RL offline.
Arquitetura tipo GPT
Estrutura de rede neural baseada no decodificador de transformer com atenção causal, adaptada para a previsão autorregressiva em tarefas de sequência.
Extração de Política
Processo de derivar uma política de decisão a partir de um modelo de sequência treinado, onde o transformer gera ações condicionadas pelos estados e retornos desejados.
Previsão de Ação
Tarefa principal do Decision Transformer que consiste em prever a ação ótima no passo t+1, dado o estado t e o retorno-a-vir desejado.
Representação de Estado
Codificação vetorial do estado do ambiente integrada na sequência de entrada do transformer, capturando as informações relevantes para a decisão.
Trajectory Transformer
Variante do Decision Transformer que modela explicitamente a distribuição conjunta sobre as trajetórias completas para gerar sequências de ações coerentes.
Comprimento do Contexto
Número máximo de tokens (estados, ações, recompensas) que o transformer pode processar simultaneamente em sua janela de atenção.
Decodificador Transformer
Componente principal do Decision Transformer que utiliza atenção mascarada para gerar sequencialmente ações futuras.
Condicionamento de Sequência
Estratégia onde as previsões futuras são condicionadas pela sequência completa de eventos passados, em vez de apenas um estado atual.
Conjunto de Dados Offline
Conjunto de dados estático contendo trajetórias (estados, ações, recompensas) coletadas por uma política comportamental, utilizado para o treinamento offline.