Adagrad - Glossário IA

📖

termos

Taxa de aprendizado adaptativa

Mecanismo de ajuste automático da taxa de aprendizado durante o treinamento, modificando a magnitude das atualizações dos parâmetros com base nas características locais do panorama da função de custo.

📖

termos

Soma histórica dos quadrados dos gradientes

Acumulação exponencial dos quadrados dos gradientes passados utilizada no Adagrad para normalizar as atualizações dos parâmetros, penalizando gradientes elevados frequentes e favorecendo direções com gradientes historicamente baixos.

📖

termos

Fator de escala diagonal

Matriz diagonal que pré-condiciona o gradiente no Adagrad, onde cada elemento representa a raiz quadrada da soma acumulada dos quadrados dos gradientes para cada parâmetro individual.

📖

termos

Função de custo convexa

Função objetivo onde qualquer linha reta entre dois pontos da superfície se encontra acima da superfície, garantindo a ausência de mínimos locais e a convergência global dos métodos de descida de gradiente.

📖

termos

Norma do gradiente

Medida da magnitude do vetor gradiente, utilizada no Adagrad para determinar se um parâmetro sofreu atualizações significativas historicamente e, portanto, requer um ajuste adaptativo da taxa de aprendizado.

📖

termos

Esperança do quadrado do gradiente

Estimativa estatística da média de longo prazo dos quadrados dos gradientes, servindo de base para o cálculo dos fatores de escala adaptativos nos otimizadores da família Adagrad.

📖

termos

Vetor de parâmetros

Coleção de todas as variáveis otimizáveis de um modelo, atualizada iterativamente pelo Adagrad com taxas de aprendizado individualmente adaptadas para cada componente do vetor.

📖

termos

Condicionamento mal-posto

Situação em que as escalas dos gradientes em diferentes direções variam consideravelmente, problema que o Adagrad aborda especificamente adaptando dinamicamente a taxa de aprendizado por dimensão.

📖

termos

Viés de correção

Mecanismo em Adam e variantes que corrige a estimativa inicial enviesada dos primeiros e segundos momentos devido à inicialização zero das médias móveis exponenciais.

📖

termos

Hiperparâmetro epsilon

Pequena constante adicionada ao denominador em Adagrad e variantes para garantir a estabilidade numérica, evitando a divisão por zero quando a soma dos quadrados dos gradientes é muito baixa.

Glossário IA

Taxa de aprendizado adaptativa

Soma histórica dos quadrados dos gradientes

Fator de escala diagonal

Função de custo convexa

Norma do gradiente

Esperança do quadrado do gradiente

Vetor de parâmetros

Condicionamento mal-posto

Viés de correção

Hiperparâmetro epsilon

Nenhum resultado encontrado