Aprendizagem por Dyna-Q - Glossário IA

📖

termos

Aprendizagem por Reforço Baseada em Modelo

Abordagem de aprendizagem por reforço onde o agente constrói um modelo interno do ambiente para simular transições e gerar experiências sem interação real.

📖

termos

Dyna-Q

Algoritmo híbrido de aprendizagem por reforço que combina aprendizagem direta a partir da experiência real e planeamento usando um modelo aprendido para gerar experiências simuladas adicionais.

📖

termos

Aprendizagem direta

Processo de atualização dos valores de ação ou política baseado unicamente nas experiências reais acumuladas durante a interação com o ambiente.

📖

termos

Planeamento na aprendizagem por reforço

Utilização de um modelo ambiental para gerar experiências sintéticas e melhorar a política sem interações adicionais com o ambiente real.

📖

termos

Modelo de transição

Componente do modelo preditivo do ambiente que estima a distribuição de probabilidade dos estados seguintes dado um estado atual e uma ação.

📖

termos

Modelo de recompensa

Função aprendida que prevê a recompensa esperada para cada par estado-ação num ambiente de aprendizagem por reforço.

📖

termos

Experiências simuladas

Amostras geradas artificialmente pelo modelo interno do ambiente para acelerar a aprendizagem sem necessitar de interações reais adicionais.

📖

termos

Atualização de valor

Processo iterativo de ajuste das estimativas de valor de ação Q(s,a) baseado nas recompensas observadas e nos valores dos estados futuros de acordo com a equação de Bellman.

📖

termos

Memória de Experiências

Estrutura de dados que armazena os trigêmeos (estado, ação, recompensa, próximo_estado) para permitir atualizações repetidas durante a fase de planejamento.

📖

termos

Dyna-Q+

Extensão do Dyna-Q que integra um mecanismo de exploração baseado no tempo decorrido desde a última visita a um par estado-ação para detectar e adaptar-se a mudanças ambientais.

📖

termos

Prioridade de Varredura

Variante do Dyna-Q onde as atualizações são priorizadas de acordo com seu impacto potencial nos valores, otimizando a eficiência computacional da fase de planejamento.

📖

termos

Efeito de Planejamento

Aceleração do aprendizado observada quando o número de etapas de planejamento por etapa real aumenta, até um ponto de rendimento decrescente.

📖

termos

Convergência do Algoritmo

Propriedade que garante que as estimativas de valor do Dyna-Q convergem para os valores ótimos sob certas condições de modelo exato e visita infinita.

📖

termos

Erro de Modelo

Discrepância entre o comportamento real do ambiente e as previsões do modelo aprendido, podendo degradar o desempenho se não for controlada.

📖

termos

Complexidade Computacional

Custo computacional do Dyna-Q dependente linearmente do tamanho da memória de experiências e do número de atualizações de planejamento por iteração.

📖

termos

Generalização de Modelo

Capacidade de extrapolar as previsões do modelo para pares estado-ação não observados, frequentemente realizada por redes neurais ou outros aproximadores de função.

📖

termos

Amostragem do espaço de estados

Estratégia para selecionar experiências simuladas da memória durante a fase de planejamento, influenciando a eficiência de aprendizagem do Dyna-Q.

📖

termos

Função de planejamento

Componente algorítmico que realiza atualizações repetidas sobre as experiências armazenadas para refinar as estimativas de valor sem nova interação ambiental.

📖

termos

Taxa de aprendizagem adaptativa

Mecanismo de ajuste dinâmico da taxa de aprendizagem no Dyna-Q para otimizar a convergência, considerando a variância das experiências reais e simuladas.

Glossário IA

Aprendizagem por Reforço Baseada em Modelo

Dyna-Q

Aprendizagem direta

Planeamento na aprendizagem por reforço

Modelo de transição

Modelo de recompensa

Experiências simuladas

Atualização de valor

Memória de Experiências

Dyna-Q+

Prioridade de Varredura

Efeito de Planejamento

Convergência do Algoritmo

Erro de Modelo

Complexidade Computacional

Generalização de Modelo

Amostragem do espaço de estados

Função de planejamento

Taxa de aprendizagem adaptativa

Nenhum resultado encontrado