Glossário IA
O dicionário completo da Inteligência Artificial
RMSprop
Técnica de otimização adaptativa que divide a taxa de aprendizado por uma média móvel exponencial dos quadrados dos gradientes recentes para lidar com gradientes de grande magnitude.
Adagrad
Algoritmo de otimização adaptativo que ajusta a taxa de aprendizado de cada parâmetro acumulando os quadrados dos gradientes históricos, favorecendo parâmetros pouco frequentes.
Adadelta
Extensão do Adagrad que resolve o problema da drástica diminuição da taxa de aprendizado, limitando a janela dos gradientes passados a um tamanho fixo através de uma média móvel exponencial.
Adamax
Variante do Adam baseada na norma infinita em vez da norma L2, oferecendo maior estabilidade numérica e convergência mais robusta em alguns cenários.
Nadam
Combinação do gradiente acelerado de Nesterov e Adam que integra a aceleração de Nesterov no framework adaptativo do Adam para uma convergência mais rápida e estável.
AMSGrad
Modificação do Adam que garante convergência teórica, mantendo o máximo das médias móveis exponenciais ao quadrado para evitar potenciais divergências do Adam.
AdamW
Variante do Adam que desacopla a regularização de peso (weight decay) da atualização adaptativa, aplicando a regularização diretamente aos pesos em vez de aos gradientes.
SGDW
Extensão do SGD com weight decay desacoplado que aplica a regularização de peso independentemente da atualização por gradiente para uma melhor regularização.
RAdam
Rectified Adam que resolve o problema de grande variância nas fases iniciais de treinamento, introduzindo um mecanismo de retificação adaptativo.
YellowFin
Otimizador que ajusta automaticamente a taxa de aprendizado e o coeficiente de momentum, utilizando uma análise teórica da convergência local de métodos de segunda ordem.
LARS
Layer-wise Adaptive Rate Scaling que adapta a taxa de aprendizado por camada com base na razão entre a norma L2 dos pesos e dos gradientes para treinamentos em larga escala.
LAMB
Layer-wise Adaptive Moments optimizer for Batch training que estende o LARS, integrando estatísticas adaptativas do tipo Adam para um treinamento eficiente de modelos massivos.
Rprop
Resilient Backpropagation que adapta a taxa de aprendizado por parâmetro, ignorando a magnitude do gradiente e considerando apenas seu sinal para atualizações robustas.
QHAdam
Quasi-Hyperbolic Adam que generaliza Adam e Momentum, introduzindo parâmetros de quase-hiperbolicidade para um controle fino da contribuição dos momentos.