Glossário IA
O dicionário completo da Inteligência Artificial
Função Q
Função de avaliação que quantifica a qualidade de uma ação específica em um estado particular em termos de recompensas futuras esperadas.
Dissociação da função Q
Técnica que separa a função Q(s,a) em dois componentes: o valor do estado V(s) e a vantagem A(s,a) para melhorar a eficiência do aprendizado.
Vantagem
Medida que quantifica o quanto uma ação é melhor do que a média das ações possíveis em um determinado estado, definida como A(s,a) = Q(s,a) - V(s).
Arquitetura Dueling
Estrutura de rede neural com dois fluxos distintos: um para estimar V(s) e outro para estimar A(s,a), combinados novamente para obter Q(s,a).
Estimador de Valor
Parte da arquitetura dueling responsável por estimar o valor intrínseco de cada estado independentemente das ações possíveis.
Estimador de Vantagem
Componente da rede dueling que calcula a vantagem relativa de cada ação em relação ao valor médio das ações em um estado.
Redução de Variância
Benefício principal da decomposição Q, na qual a separação entre valor e vantagem estabiliza o aprendizado reduzindo a variância das estimativas.
Estabilidade do Aprendizado
Característica de um algoritmo de aprendizado que converge de forma previsível, sem oscilações excessivas ou divergência durante o treinamento.
Estados-ações
Pares fundamentais em aprendizado por reforço que representam uma situação específica e a escolha de ação associada no ambiente.
Agregação de vantagens
Operação que combina as saídas dos estimadores de valor e vantagem para reconstruir a função Q final respeitando a identidade Q(s,a) = V(s) + A(s,a).
Normalização de vantagens
Técnica de subtrair a média das vantagens para garantir a identificabilidade entre V(s) e A(s,a) na arquitetura dueling.
Compartilhamento de representação
Princípio pelo qual as camadas convolucionais iniciais extraem características comuns utilizadas tanto pelo estimador de valor quanto pelo estimador de vantagem.
Otimização não convexa
Desafio matemático no aprendizado por reforço onde a superfície de perda contém muitos ótimos locais, dificultando a convergência.
Eficiência de amostragem
Capacidade de um algoritmo de aprender eficazmente com um número limitado de experiências, melhorada pela decomposição valor/vantagem.
Propagação de gradientes
Mecanismo pelo qual os erros de previsão são retropropagados através da rede para ajustar simultaneamente os estimadores V(s) e A(s,a).