Glossário IA
O dicionário completo da Inteligência Artificial
Taxa de aprendizado adaptativa
Mecanismo de ajuste automático da taxa de aprendizado durante o treinamento, modificando a magnitude das atualizações dos parâmetros com base nas características locais do panorama da função de custo.
Soma histórica dos quadrados dos gradientes
Acumulação exponencial dos quadrados dos gradientes passados utilizada no Adagrad para normalizar as atualizações dos parâmetros, penalizando gradientes elevados frequentes e favorecendo direções com gradientes historicamente baixos.
Fator de escala diagonal
Matriz diagonal que pré-condiciona o gradiente no Adagrad, onde cada elemento representa a raiz quadrada da soma acumulada dos quadrados dos gradientes para cada parâmetro individual.
Função de custo convexa
Função objetivo onde qualquer linha reta entre dois pontos da superfície se encontra acima da superfície, garantindo a ausência de mínimos locais e a convergência global dos métodos de descida de gradiente.
Norma do gradiente
Medida da magnitude do vetor gradiente, utilizada no Adagrad para determinar se um parâmetro sofreu atualizações significativas historicamente e, portanto, requer um ajuste adaptativo da taxa de aprendizado.
Esperança do quadrado do gradiente
Estimativa estatística da média de longo prazo dos quadrados dos gradientes, servindo de base para o cálculo dos fatores de escala adaptativos nos otimizadores da família Adagrad.
Vetor de parâmetros
Coleção de todas as variáveis otimizáveis de um modelo, atualizada iterativamente pelo Adagrad com taxas de aprendizado individualmente adaptadas para cada componente do vetor.
Condicionamento mal-posto
Situação em que as escalas dos gradientes em diferentes direções variam consideravelmente, problema que o Adagrad aborda especificamente adaptando dinamicamente a taxa de aprendizado por dimensão.
Viés de correção
Mecanismo em Adam e variantes que corrige a estimativa inicial enviesada dos primeiros e segundos momentos devido à inicialização zero das médias móveis exponenciais.
Hiperparâmetro epsilon
Pequena constante adicionada ao denominador em Adagrad e variantes para garantir a estabilidade numérica, evitando a divisão por zero quando a soma dos quadrados dos gradientes é muito baixa.