Otimização Estocástica em RL

📖

termos

Gradiente de Política Estocástico

Método de otimização direta da política usando estimativas de gradiente baseadas em trajetórias amostradas, permitindo gerenciar espaços de ação contínuos e discretos.

📖

termos

Actor-Critic Estocástico

Arquitetura híbrida combinando um ator estocástico que aprende a política e um crítico que estima a função de valor para reduzir a variância das estimativas de gradiente.

📖

termos

Gradiente Natural

Método de otimização que segue a geometria do espaço de parâmetros definida pela métrica de Fisher, adaptado naturalmente a problemas estocásticos em RL.

📖

termos

Descida de Gradiente Estocástico

Algoritmo de otimização iterativo que utiliza estimativas ruidosas do gradiente calculadas em mini-batches de dados para atualizar os parâmetros do modelo.

📖

termos

Algoritmo de Robbins-Monro

Fundador dos métodos de aproximação estocástica, utilizando um passo de aprendizagem decrescente para garantir a convergência para pontos estacionários em um ambiente ruidoso.

📖

termos

Aproximação Estocástica

Estrutura teórica para otimização na presença de ruído, fornecendo garantias de convergência para algoritmos de aprendizagem que utilizam estimativas ruidosas.

📖

termos

Amostragem por Importância em RL

Técnica que permite usar dados coletados com uma política antiga para treinar uma nova política, ponderando as amostras pela razão das densidades.

📖

termos

Regularização por Divergência KL

Restrição que regulariza a distância entre a política atual e a anterior através da divergência de Kullback-Leibler, prevenindo mudanças de política muito abruptas.

📖

termos

Injeção de Ruído na Política

Estratégia de exploração que adiciona ruído estocástico diretamente aos parâmetros ou às saídas da política para manter a exploração durante a otimização.

📖

termos

Redes Neurais Estocásticas em RL

Redes neurais que incorporam incerteza em seus parâmetros ou ativações, usadas como políticas estocásticas para modelar distribuições complexas de ações.

Glossário IA

Gradiente de Política Estocástico

Actor-Critic Estocástico

Gradiente Natural

Descida de Gradiente Estocástico

Algoritmo de Robbins-Monro

Aproximação Estocástica

Amostragem por Importância em RL

Regularização por Divergência KL

Injeção de Ruído na Política

Redes Neurais Estocásticas em RL

Nenhum resultado encontrado