Glossário IA
O dicionário completo da Inteligência Artificial
Política de Decisão
Estratégia ou mapeamento que define a ação a ser tomada em cada estado possível, representando o comportamento do agente em um processo de aprendizagem por reforço.
Problema do Bandido de Um Braço Só
Problema de otimização sequencial onde um agente deve escolher entre várias opções com recompensas desconhecidas para maximizar a recompensa cumulativa ao longo do tempo.
Recompensa Cumulativa
Soma das recompensas futuras descontadas que o agente busca maximizar, frequentemente calculada com um fator de desconto para dar menos peso às recompensas distantes.
Algoritmo SARSA
Algoritmo de aprendizagem por reforço on-policy que atualiza os valores Q com base na sequência Estado-Ação-Recompensa-Estado-Ação, ao contrário do Q-learning.
Deep Q-Network
Arquitetura de rede neural profunda usada para aproximar a função Q em espaços de estados complexos, combinando aprendizagem profunda e Q-learning.
Aprendizagem por Reforço Profunda
Abordagem que integra redes neurais profundas na aprendizagem por reforço para lidar com espaços de estados ou ações de alta dimensão.
Política Epsilon-Greedy
Estratégia de seleção de ação onde com probabilidade ε o agente explora (escolhe uma ação aleatória) e com probabilidade 1-ε ele explora (escolhe a melhor ação conhecida).
Otimização de Política
Classe de métodos em aprendizagem por reforço que otimizam diretamente a política sem passar por uma função de valor, frequentemente usando técnicas de gradiente de política.
Algoritmo de Gradiente de Política
Método de otimização que ajusta diretamente os parâmetros da política seguindo o gradiente da recompensa esperada em relação a esses parâmetros.
Aprendizagem por Reforço Multiagente
Extensão da aprendizagem por reforço onde múltiplos agentes aprendem simultaneamente, frequentemente em competição ou cooperação, em um ambiente compartilhado.
Memória de Replay de Experiência
Estrutura de dados que armazena as transições (estado, ação, recompensa, próximo estado) para reamostragem durante o treinamento, melhorando a eficiência da utilização dos dados.
Algoritmo Ator-Crítico
Arquitetura que combina um ator que seleciona as ações de acordo com uma política e um crítico que avalia essas ações, permitindo uma aprendizagem mais estável e eficiente.