Glossário IA
O dicionário completo da Inteligência Artificial
Aprendizagem por Reforço Baseada em Modelo
Abordagem de aprendizagem por reforço onde o agente constrói um modelo interno do ambiente para simular transições e gerar experiências sem interação real.
Dyna-Q
Algoritmo híbrido de aprendizagem por reforço que combina aprendizagem direta a partir da experiência real e planeamento usando um modelo aprendido para gerar experiências simuladas adicionais.
Aprendizagem direta
Processo de atualização dos valores de ação ou política baseado unicamente nas experiências reais acumuladas durante a interação com o ambiente.
Planeamento na aprendizagem por reforço
Utilização de um modelo ambiental para gerar experiências sintéticas e melhorar a política sem interações adicionais com o ambiente real.
Modelo de transição
Componente do modelo preditivo do ambiente que estima a distribuição de probabilidade dos estados seguintes dado um estado atual e uma ação.
Modelo de recompensa
Função aprendida que prevê a recompensa esperada para cada par estado-ação num ambiente de aprendizagem por reforço.
Experiências simuladas
Amostras geradas artificialmente pelo modelo interno do ambiente para acelerar a aprendizagem sem necessitar de interações reais adicionais.
Atualização de valor
Processo iterativo de ajuste das estimativas de valor de ação Q(s,a) baseado nas recompensas observadas e nos valores dos estados futuros de acordo com a equação de Bellman.
Memória de Experiências
Estrutura de dados que armazena os trigêmeos (estado, ação, recompensa, próximo_estado) para permitir atualizações repetidas durante a fase de planejamento.
Dyna-Q+
Extensão do Dyna-Q que integra um mecanismo de exploração baseado no tempo decorrido desde a última visita a um par estado-ação para detectar e adaptar-se a mudanças ambientais.
Prioridade de Varredura
Variante do Dyna-Q onde as atualizações são priorizadas de acordo com seu impacto potencial nos valores, otimizando a eficiência computacional da fase de planejamento.
Efeito de Planejamento
Aceleração do aprendizado observada quando o número de etapas de planejamento por etapa real aumenta, até um ponto de rendimento decrescente.
Convergência do Algoritmo
Propriedade que garante que as estimativas de valor do Dyna-Q convergem para os valores ótimos sob certas condições de modelo exato e visita infinita.
Erro de Modelo
Discrepância entre o comportamento real do ambiente e as previsões do modelo aprendido, podendo degradar o desempenho se não for controlada.
Complexidade Computacional
Custo computacional do Dyna-Q dependente linearmente do tamanho da memória de experiências e do número de atualizações de planejamento por iteração.
Generalização de Modelo
Capacidade de extrapolar as previsões do modelo para pares estado-ação não observados, frequentemente realizada por redes neurais ou outros aproximadores de função.
Amostragem do espaço de estados
Estratégia para selecionar experiências simuladas da memória durante a fase de planejamento, influenciando a eficiência de aprendizagem do Dyna-Q.
Função de planejamento
Componente algorítmico que realiza atualizações repetidas sobre as experiências armazenadas para refinar as estimativas de valor sem nova interação ambiental.
Taxa de aprendizagem adaptativa
Mecanismo de ajuste dinâmico da taxa de aprendizagem no Dyna-Q para otimizar a convergência, considerando a variância das experiências reais e simuladas.