Aprendizagem por Reforço para Otimização

📖

termos

Política de Decisão

Estratégia ou mapeamento que define a ação a ser tomada em cada estado possível, representando o comportamento do agente em um processo de aprendizagem por reforço.

📖

termos

Problema do Bandido de Um Braço Só

Problema de otimização sequencial onde um agente deve escolher entre várias opções com recompensas desconhecidas para maximizar a recompensa cumulativa ao longo do tempo.

📖

termos

Recompensa Cumulativa

Soma das recompensas futuras descontadas que o agente busca maximizar, frequentemente calculada com um fator de desconto para dar menos peso às recompensas distantes.

📖

termos

Algoritmo SARSA

Algoritmo de aprendizagem por reforço on-policy que atualiza os valores Q com base na sequência Estado-Ação-Recompensa-Estado-Ação, ao contrário do Q-learning.

📖

termos

Deep Q-Network

Arquitetura de rede neural profunda usada para aproximar a função Q em espaços de estados complexos, combinando aprendizagem profunda e Q-learning.

📖

termos

Aprendizagem por Reforço Profunda

Abordagem que integra redes neurais profundas na aprendizagem por reforço para lidar com espaços de estados ou ações de alta dimensão.

📖

termos

Política Epsilon-Greedy

Estratégia de seleção de ação onde com probabilidade ε o agente explora (escolhe uma ação aleatória) e com probabilidade 1-ε ele explora (escolhe a melhor ação conhecida).

📖

termos

Otimização de Política

Classe de métodos em aprendizagem por reforço que otimizam diretamente a política sem passar por uma função de valor, frequentemente usando técnicas de gradiente de política.

📖

termos

Algoritmo de Gradiente de Política

Método de otimização que ajusta diretamente os parâmetros da política seguindo o gradiente da recompensa esperada em relação a esses parâmetros.

📖

termos

Aprendizagem por Reforço Multiagente

Extensão da aprendizagem por reforço onde múltiplos agentes aprendem simultaneamente, frequentemente em competição ou cooperação, em um ambiente compartilhado.

📖

termos

Memória de Replay de Experiência

Estrutura de dados que armazena as transições (estado, ação, recompensa, próximo estado) para reamostragem durante o treinamento, melhorando a eficiência da utilização dos dados.

📖

termos

Algoritmo Ator-Crítico

Arquitetura que combina um ator que seleciona as ações de acordo com uma política e um crítico que avalia essas ações, permitindo uma aprendizagem mais estável e eficiente.

Glossário IA

Política de Decisão

Problema do Bandido de Um Braço Só

Recompensa Cumulativa

Algoritmo SARSA

Deep Q-Network

Aprendizagem por Reforço Profunda

Política Epsilon-Greedy

Otimização de Política

Algoritmo de Gradiente de Política

Aprendizagem por Reforço Multiagente

Memória de Replay de Experiência

Algoritmo Ator-Crítico

Nenhum resultado encontrado