Glossário IA
O dicionário completo da Inteligência Artificial
Momento de Nesterov
Variante do algoritmo de momento que aplica uma correção antecipada calculando o gradiente na posição futura estimada, acelerando a convergência e reduzindo as oscilações.
Adam (Adaptive Moment Estimation)
Algoritmo de otimização que combina as ideias de Momentum e RMSprop, utilizando estimativas dos primeiros e segundos momentos dos gradientes para adaptar as taxas de aprendizado de cada parâmetro.
AdaGrad
Otimizador adaptativo que ajusta a taxa de aprendizado de cada parâmetro com base na soma histórica dos quadrados de seus gradientes, favorecendo parâmetros pouco frequentes.
AdaDelta
Extensão do AdaGrad que limita a janela de acumulação de gradientes passados a um tamanho fixo através de uma média móvel deslizante, evitando a diminuição agressiva da taxa de aprendizado.
Decaimento da Taxa de Aprendizado
Estratégia de redução progressiva da taxa de aprendizado durante o treinamento, frequentemente de acordo com um cronograma predefinido (passo, exponencial ou cosseno), para refinar a convergência para um mínimo.
Otimizador LAMB (Layer-wise Adaptive Moments)
Algoritmo de otimização projetado para treinamento em larga escala, adaptando a taxa de aprendizado por camada usando a norma dos pesos e dos gradientes, eficaz para lotes de dados muito grandes.
Otimizador LARS (Layer-wise Adaptive Rate Scaling)
Método de otimização que adapta a taxa de aprendizado para cada camada com base na razão entre a norma dos pesos e a norma dos gradientes, particularmente adequado para treinamento com grandes lotes.
Lookahead Optimizer
Mecanismo de otimização que atualiza periodicamente os pesos 'lentos' em direção à média dos pesos 'rápidos' gerados por um otimizador interno, melhorando a generalização e a estabilidade da convergência.
RAdam (Rectified Adam)
Variante do Adam que corrige a variância da adaptação da taxa de aprendizado nas primeiras etapas do treinamento, oferecendo uma convergência mais estável sem a necessidade de uma fase de aquecimento (warmup).
SWATS (Switching from Adam to SGD)
Estratégia que inicia o treinamento com um otimizador adaptativo como o Adam para uma convergência rápida, e depois muda para a Descida de Gradiente Estocástica (SGD) para uma melhor generalização.
Otimizador Yogi
Modificação do Adam que visa proporcionar uma convergência mais estável usando uma atualização do segundo momento menos agressiva, reduzindo as oscilações e melhorando o desempenho em tarefas complexas.
Shampoo
Otimizador de segunda ordem que pré-condiciona os gradientes usando aproximações da matriz Hessiana por blocos, acelerando a convergência para problemas mal-condicionados.
Reinício da Taxa de Aprendizado (Learning Rate Restart)
Técnica cíclica onde a taxa de aprendizado é periodicamente redefinida para seu valor inicial, permitindo que o modelo escape de mínimos locais e explore novas regiões do espaço de soluções.