Otimização Profunda - Glossário IA

📖

termos

Momento de Nesterov

Variante do algoritmo de momento que aplica uma correção antecipada calculando o gradiente na posição futura estimada, acelerando a convergência e reduzindo as oscilações.

📖

termos

Adam (Adaptive Moment Estimation)

Algoritmo de otimização que combina as ideias de Momentum e RMSprop, utilizando estimativas dos primeiros e segundos momentos dos gradientes para adaptar as taxas de aprendizado de cada parâmetro.

📖

termos

AdaGrad

Otimizador adaptativo que ajusta a taxa de aprendizado de cada parâmetro com base na soma histórica dos quadrados de seus gradientes, favorecendo parâmetros pouco frequentes.

📖

termos

AdaDelta

Extensão do AdaGrad que limita a janela de acumulação de gradientes passados a um tamanho fixo através de uma média móvel deslizante, evitando a diminuição agressiva da taxa de aprendizado.

📖

termos

Decaimento da Taxa de Aprendizado

Estratégia de redução progressiva da taxa de aprendizado durante o treinamento, frequentemente de acordo com um cronograma predefinido (passo, exponencial ou cosseno), para refinar a convergência para um mínimo.

📖

termos

Otimizador LAMB (Layer-wise Adaptive Moments)

Algoritmo de otimização projetado para treinamento em larga escala, adaptando a taxa de aprendizado por camada usando a norma dos pesos e dos gradientes, eficaz para lotes de dados muito grandes.

📖

termos

Otimizador LARS (Layer-wise Adaptive Rate Scaling)

Método de otimização que adapta a taxa de aprendizado para cada camada com base na razão entre a norma dos pesos e a norma dos gradientes, particularmente adequado para treinamento com grandes lotes.

📖

termos

Lookahead Optimizer

Mecanismo de otimização que atualiza periodicamente os pesos 'lentos' em direção à média dos pesos 'rápidos' gerados por um otimizador interno, melhorando a generalização e a estabilidade da convergência.

📖

termos

RAdam (Rectified Adam)

Variante do Adam que corrige a variância da adaptação da taxa de aprendizado nas primeiras etapas do treinamento, oferecendo uma convergência mais estável sem a necessidade de uma fase de aquecimento (warmup).

📖

termos

SWATS (Switching from Adam to SGD)

Estratégia que inicia o treinamento com um otimizador adaptativo como o Adam para uma convergência rápida, e depois muda para a Descida de Gradiente Estocástica (SGD) para uma melhor generalização.

📖

termos

Otimizador Yogi

Modificação do Adam que visa proporcionar uma convergência mais estável usando uma atualização do segundo momento menos agressiva, reduzindo as oscilações e melhorando o desempenho em tarefas complexas.

📖

termos

Shampoo

Otimizador de segunda ordem que pré-condiciona os gradientes usando aproximações da matriz Hessiana por blocos, acelerando a convergência para problemas mal-condicionados.

📖

termos

Reinício da Taxa de Aprendizado (Learning Rate Restart)

Técnica cíclica onde a taxa de aprendizado é periodicamente redefinida para seu valor inicial, permitindo que o modelo escape de mínimos locais e explore novas regiões do espaço de soluções.

Glossário IA

Momento de Nesterov

Adam (Adaptive Moment Estimation)

AdaGrad

AdaDelta

Decaimento da Taxa de Aprendizado

Otimizador LAMB (Layer-wise Adaptive Moments)

Otimizador LARS (Layer-wise Adaptive Rate Scaling)

Lookahead Optimizer

RAdam (Rectified Adam)

SWATS (Switching from Adam to SGD)

Otimizador Yogi

Shampoo

Reinício da Taxa de Aprendizado (Learning Rate Restart)

Nenhum resultado encontrado