Fatoração de Valor - Glossário IA

📖

termos

Função Q

Função de avaliação que quantifica a qualidade de uma ação específica em um estado particular em termos de recompensas futuras esperadas.

📖

termos

Dissociação da função Q

Técnica que separa a função Q(s,a) em dois componentes: o valor do estado V(s) e a vantagem A(s,a) para melhorar a eficiência do aprendizado.

📖

termos

Vantagem

Medida que quantifica o quanto uma ação é melhor do que a média das ações possíveis em um determinado estado, definida como A(s,a) = Q(s,a) - V(s).

📖

termos

Arquitetura Dueling

Estrutura de rede neural com dois fluxos distintos: um para estimar V(s) e outro para estimar A(s,a), combinados novamente para obter Q(s,a).

📖

termos

Estimador de Valor

Parte da arquitetura dueling responsável por estimar o valor intrínseco de cada estado independentemente das ações possíveis.

📖

termos

Estimador de Vantagem

Componente da rede dueling que calcula a vantagem relativa de cada ação em relação ao valor médio das ações em um estado.

📖

termos

Redução de Variância

Benefício principal da decomposição Q, na qual a separação entre valor e vantagem estabiliza o aprendizado reduzindo a variância das estimativas.

📖

termos

Estabilidade do Aprendizado

Característica de um algoritmo de aprendizado que converge de forma previsível, sem oscilações excessivas ou divergência durante o treinamento.

📖

termos

Estados-ações

Pares fundamentais em aprendizado por reforço que representam uma situação específica e a escolha de ação associada no ambiente.

📖

termos

Agregação de vantagens

Operação que combina as saídas dos estimadores de valor e vantagem para reconstruir a função Q final respeitando a identidade Q(s,a) = V(s) + A(s,a).

📖

termos

Normalização de vantagens

Técnica de subtrair a média das vantagens para garantir a identificabilidade entre V(s) e A(s,a) na arquitetura dueling.

📖

termos

Compartilhamento de representação

Princípio pelo qual as camadas convolucionais iniciais extraem características comuns utilizadas tanto pelo estimador de valor quanto pelo estimador de vantagem.

📖

termos

Otimização não convexa

Desafio matemático no aprendizado por reforço onde a superfície de perda contém muitos ótimos locais, dificultando a convergência.

📖

termos

Eficiência de amostragem

Capacidade de um algoritmo de aprender eficazmente com um número limitado de experiências, melhorada pela decomposição valor/vantagem.

📖

termos

Propagação de gradientes

Mecanismo pelo qual os erros de previsão são retropropagados através da rede para ajustar simultaneamente os estimadores V(s) e A(s,a).

Glossário IA

Função Q

Dissociação da função Q

Vantagem

Arquitetura Dueling

Estimador de Valor

Estimador de Vantagem

Redução de Variância

Estabilidade do Aprendizado

Estados-ações

Agregação de vantagens

Normalização de vantagens

Compartilhamento de representação

Otimização não convexa

Eficiência de amostragem

Propagação de gradientes

Nenhum resultado encontrado