🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Aprendizagem por Reforço Baseada em Modelo

Abordagem de aprendizagem por reforço onde o agente constrói um modelo interno do ambiente para simular transições e gerar experiências sem interação real.

📖
termos

Dyna-Q

Algoritmo híbrido de aprendizagem por reforço que combina aprendizagem direta a partir da experiência real e planeamento usando um modelo aprendido para gerar experiências simuladas adicionais.

📖
termos

Aprendizagem direta

Processo de atualização dos valores de ação ou política baseado unicamente nas experiências reais acumuladas durante a interação com o ambiente.

📖
termos

Planeamento na aprendizagem por reforço

Utilização de um modelo ambiental para gerar experiências sintéticas e melhorar a política sem interações adicionais com o ambiente real.

📖
termos

Modelo de transição

Componente do modelo preditivo do ambiente que estima a distribuição de probabilidade dos estados seguintes dado um estado atual e uma ação.

📖
termos

Modelo de recompensa

Função aprendida que prevê a recompensa esperada para cada par estado-ação num ambiente de aprendizagem por reforço.

📖
termos

Experiências simuladas

Amostras geradas artificialmente pelo modelo interno do ambiente para acelerar a aprendizagem sem necessitar de interações reais adicionais.

📖
termos

Atualização de valor

Processo iterativo de ajuste das estimativas de valor de ação Q(s,a) baseado nas recompensas observadas e nos valores dos estados futuros de acordo com a equação de Bellman.

📖
termos

Memória de Experiências

Estrutura de dados que armazena os trigêmeos (estado, ação, recompensa, próximo_estado) para permitir atualizações repetidas durante a fase de planejamento.

📖
termos

Dyna-Q+

Extensão do Dyna-Q que integra um mecanismo de exploração baseado no tempo decorrido desde a última visita a um par estado-ação para detectar e adaptar-se a mudanças ambientais.

📖
termos

Prioridade de Varredura

Variante do Dyna-Q onde as atualizações são priorizadas de acordo com seu impacto potencial nos valores, otimizando a eficiência computacional da fase de planejamento.

📖
termos

Efeito de Planejamento

Aceleração do aprendizado observada quando o número de etapas de planejamento por etapa real aumenta, até um ponto de rendimento decrescente.

📖
termos

Convergência do Algoritmo

Propriedade que garante que as estimativas de valor do Dyna-Q convergem para os valores ótimos sob certas condições de modelo exato e visita infinita.

📖
termos

Erro de Modelo

Discrepância entre o comportamento real do ambiente e as previsões do modelo aprendido, podendo degradar o desempenho se não for controlada.

📖
termos

Complexidade Computacional

Custo computacional do Dyna-Q dependente linearmente do tamanho da memória de experiências e do número de atualizações de planejamento por iteração.

📖
termos

Generalização de Modelo

Capacidade de extrapolar as previsões do modelo para pares estado-ação não observados, frequentemente realizada por redes neurais ou outros aproximadores de função.

📖
termos

Amostragem do espaço de estados

Estratégia para selecionar experiências simuladas da memória durante a fase de planejamento, influenciando a eficiência de aprendizagem do Dyna-Q.

📖
termos

Função de planejamento

Componente algorítmico que realiza atualizações repetidas sobre as experiências armazenadas para refinar as estimativas de valor sem nova interação ambiental.

📖
termos

Taxa de aprendizagem adaptativa

Mecanismo de ajuste dinâmico da taxa de aprendizagem no Dyna-Q para otimizar a convergência, considerando a variância das experiências reais e simuladas.

🔍

Nenhum resultado encontrado