🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Decision Transformer

Arquitetura transformer que modela a aprendizagem por reforço offline como um problema de sequência-para-sequência, prevendo ações futuras com base em estados passados e retornos cumulativos.

📖
termos

Modelagem de Trajetória

Abordagem que consiste em modelar trajetórias completas (estados, ações, recompensas) como sequências contínuas para a aprendizagem de políticas no RL offline.

📖
termos

Arquitetura tipo GPT

Estrutura de rede neural baseada no decodificador de transformer com atenção causal, adaptada para a previsão autorregressiva em tarefas de sequência.

📖
termos

Extração de Política

Processo de derivar uma política de decisão a partir de um modelo de sequência treinado, onde o transformer gera ações condicionadas pelos estados e retornos desejados.

📖
termos

Previsão de Ação

Tarefa principal do Decision Transformer que consiste em prever a ação ótima no passo t+1, dado o estado t e o retorno-a-vir desejado.

📖
termos

Representação de Estado

Codificação vetorial do estado do ambiente integrada na sequência de entrada do transformer, capturando as informações relevantes para a decisão.

📖
termos

Trajectory Transformer

Variante do Decision Transformer que modela explicitamente a distribuição conjunta sobre as trajetórias completas para gerar sequências de ações coerentes.

📖
termos

Comprimento do Contexto

Número máximo de tokens (estados, ações, recompensas) que o transformer pode processar simultaneamente em sua janela de atenção.

📖
termos

Decodificador Transformer

Componente principal do Decision Transformer que utiliza atenção mascarada para gerar sequencialmente ações futuras.

📖
termos

Condicionamento de Sequência

Estratégia onde as previsões futuras são condicionadas pela sequência completa de eventos passados, em vez de apenas um estado atual.

📖
termos

Conjunto de Dados Offline

Conjunto de dados estático contendo trajetórias (estados, ações, recompensas) coletadas por uma política comportamental, utilizado para o treinamento offline.

🔍

Nenhum resultado encontrado