Otimização baseada em Momentum

📖

termos

RMSprop

Técnica de otimização adaptativa que divide a taxa de aprendizado por uma média móvel exponencial dos quadrados dos gradientes recentes para lidar com gradientes de grande magnitude.

📖

termos

Adagrad

Algoritmo de otimização adaptativo que ajusta a taxa de aprendizado de cada parâmetro acumulando os quadrados dos gradientes históricos, favorecendo parâmetros pouco frequentes.

📖

termos

Adadelta

Extensão do Adagrad que resolve o problema da drástica diminuição da taxa de aprendizado, limitando a janela dos gradientes passados a um tamanho fixo através de uma média móvel exponencial.

📖

termos

Adamax

Variante do Adam baseada na norma infinita em vez da norma L2, oferecendo maior estabilidade numérica e convergência mais robusta em alguns cenários.

📖

termos

Nadam

Combinação do gradiente acelerado de Nesterov e Adam que integra a aceleração de Nesterov no framework adaptativo do Adam para uma convergência mais rápida e estável.

📖

termos

AMSGrad

Modificação do Adam que garante convergência teórica, mantendo o máximo das médias móveis exponenciais ao quadrado para evitar potenciais divergências do Adam.

📖

termos

AdamW

Variante do Adam que desacopla a regularização de peso (weight decay) da atualização adaptativa, aplicando a regularização diretamente aos pesos em vez de aos gradientes.

📖

termos

SGDW

Extensão do SGD com weight decay desacoplado que aplica a regularização de peso independentemente da atualização por gradiente para uma melhor regularização.

📖

termos

RAdam

Rectified Adam que resolve o problema de grande variância nas fases iniciais de treinamento, introduzindo um mecanismo de retificação adaptativo.

📖

termos

YellowFin

Otimizador que ajusta automaticamente a taxa de aprendizado e o coeficiente de momentum, utilizando uma análise teórica da convergência local de métodos de segunda ordem.

📖

termos

LARS

Layer-wise Adaptive Rate Scaling que adapta a taxa de aprendizado por camada com base na razão entre a norma L2 dos pesos e dos gradientes para treinamentos em larga escala.

📖

termos

LAMB

Layer-wise Adaptive Moments optimizer for Batch training que estende o LARS, integrando estatísticas adaptativas do tipo Adam para um treinamento eficiente de modelos massivos.

📖

termos

Rprop

Resilient Backpropagation que adapta a taxa de aprendizado por parâmetro, ignorando a magnitude do gradiente e considerando apenas seu sinal para atualizações robustas.

📖

termos

QHAdam

Quasi-Hyperbolic Adam que generaliza Adam e Momentum, introduzindo parâmetros de quase-hiperbolicidade para um controle fino da contribuição dos momentos.

Glossário IA

RMSprop

Adagrad

Adadelta

Adamax

Nadam

AMSGrad

AdamW

SGDW

RAdam

YellowFin

LARS

LAMB

Rprop

QHAdam

Nenhum resultado encontrado