Glossário IA
O dicionário completo da Inteligência Artificial
Regularização L2 desacoplada
Separação da decadência dos pesos da atualização do gradiente para aplicar a regularização independentemente da etapa de otimização.
Hiperparâmetros beta1 e beta2
Coeficientes que controlam, respectivamente, a decadência exponencial dos momentos de primeira e segunda ordem no algoritmo AdamW.
Momento de primeira ordem
Média móvel exponencial dos gradientes que captura a direção média da descida para acelerar a convergência em vales de erro.
Momento de segunda ordem
Média móvel exponencial dos quadrados dos gradientes que estima a variância para adaptar a taxa de aprendizado de acordo com a curvatura local.
Epsilon de estabilização
Pequena constante adicionada ao denominador para evitar a divisão por zero e garantir a estabilidade numérica durante a normalização dos gradientes.
Convergência assintótica
Propriedade teórica que garante que o algoritmo atinge um ponto crítico quando o número de iterações tende ao infinito sob certas condições.
Decomposição do gradiente
Separação vetorial do gradiente em componentes de decadência dos pesos e de atualização propriamente dita na implementação do AdamW.
Viés de inicialização a frio
Problema de estimativa enviesada dos momentos nas primeiras iterações devido à inicialização em zero, corrigido pelos fatores de viés do AdamW.
Fator de decaimento do peso
Parâmetro lambda que controla a intensidade da regularização L2 desacoplada aplicada independentemente a cada atualização de peso.
Normalização adaptativa
Divisão do gradiente pela raiz quadrada de seu momento de segunda ordem para normalizar a magnitude das atualizações de acordo com o histórico dos gradientes.