Aprendizado por Reforço Clássico

📂

subcategorias

Q-learning

Algoritmo de aprendizado por reforço sem modelo que aprende a função de valor ação-estado para encontrar a política ótima.

16 termos

📂

subcategorias

SARSA

Algoritmo de aprendizado por reforço on-policy que atualiza os valores Q utilizando a ação realmente executada.

13 termos

📂

subcategorias

Programação Dinâmica

Métodos matemáticos incluindo iteração de valor e iteração de política para resolver os Processos de Decisão Markovianos (MDP).

16 termos

📂

subcategorias

Métodos Monte Carlo

Técnicas de aprendizado baseadas em amostragem de episódios completos para estimar os valores.

16 termos

📂

subcategorias

Aprendizagem Temporal Diferencial

Combinação de programação dinâmica e Monte Carlo que permite atualizações online após cada etapa.

14 termos

📂

subcategorias

Double Q-learning

Variante do Q-learning que utiliza dois estimadores Q para reduzir o viés de superestimação dos valores de ação.

16 termos

📂

subcategorias

Aproximação de Função

Extensão dos métodos tabulares para espaços de estados contínuos usando aproximadores como redes neurais.

12 termos

📂

subcategorias

Aprendizado com Modelo

Abordagens em que o modelo de transição do ambiente é conhecido ou aprendido para planejar as ações.

14 termos

📂

subcategorias

Exploração vs Exploração

Estratégias para equilibrar a exploração de novas ações e a exploração dos conhecimentos adquiridos.

9 termos

📂

subcategorias

Processos de Decisão Markovianos

Estrutura matemática formal que modela problemas de decisão sequencial em ambientes estocásticos.

19 termos

📂

subcategorias

Aprendizagem Multiagentes

Extensão da aprendizagem por reforço para ambientes com múltiplos agentes interagindo.

16 termos

📂

subcategorias

Processos Parcialmente Observáveis

Generalização de MDPs onde o estado é apenas parcialmente observável, exigindo crenças sobre o estado.

14 termos

📂

subcategorias

Métodos de Gradiente de Política

Otimização direta dos parâmetros da política seguindo o gradiente das recompensas esperadas.

8 termos

📂

subcategorias

Traços de Eligibilidade

Mecanismo que combina as vantagens do TD e do Monte Carlo para acelerar a aprendizagem através de crédito temporal.

17 termos

📂

subcategorias

Fatoração de Valor

Decomposição da função Q em valor de estado e vantagem para melhorar a estabilidade da aprendizagem.

15 termos

Glossário IA

Q-learning

SARSA

Programação Dinâmica

Métodos Monte Carlo

Aprendizagem Temporal Diferencial

Double Q-learning

Aproximação de Função

Aprendizado com Modelo

Exploração vs Exploração

Processos de Decisão Markovianos

Aprendizagem Multiagentes

Processos Parcialmente Observáveis

Métodos de Gradiente de Política

Traços de Eligibilidade

Fatoração de Valor

Nenhum resultado encontrado