Glossário IA
O dicionário completo da Inteligência Artificial
Gradiente de Política Estocástico
Método de otimização direta da política usando estimativas de gradiente baseadas em trajetórias amostradas, permitindo gerenciar espaços de ação contínuos e discretos.
Actor-Critic Estocástico
Arquitetura híbrida combinando um ator estocástico que aprende a política e um crítico que estima a função de valor para reduzir a variância das estimativas de gradiente.
Gradiente Natural
Método de otimização que segue a geometria do espaço de parâmetros definida pela métrica de Fisher, adaptado naturalmente a problemas estocásticos em RL.
Descida de Gradiente Estocástico
Algoritmo de otimização iterativo que utiliza estimativas ruidosas do gradiente calculadas em mini-batches de dados para atualizar os parâmetros do modelo.
Algoritmo de Robbins-Monro
Fundador dos métodos de aproximação estocástica, utilizando um passo de aprendizagem decrescente para garantir a convergência para pontos estacionários em um ambiente ruidoso.
Aproximação Estocástica
Estrutura teórica para otimização na presença de ruído, fornecendo garantias de convergência para algoritmos de aprendizagem que utilizam estimativas ruidosas.
Amostragem por Importância em RL
Técnica que permite usar dados coletados com uma política antiga para treinar uma nova política, ponderando as amostras pela razão das densidades.
Regularização por Divergência KL
Restrição que regulariza a distância entre a política atual e a anterior através da divergência de Kullback-Leibler, prevenindo mudanças de política muito abruptas.
Injeção de Ruído na Política
Estratégia de exploração que adiciona ruído estocástico diretamente aos parâmetros ou às saídas da política para manter a exploração durante a otimização.
Redes Neurais Estocásticas em RL
Redes neurais que incorporam incerteza em seus parâmetros ou ativações, usadas como políticas estocásticas para modelar distribuições complexas de ações.