Glossário IA
O dicionário completo da Inteligência Artificial
RMSprop
Método de otimização adaptativo que utiliza uma média móvel ponderada do quadrado dos gradientes para normalizar a taxa de aprendizado, prevenindo oscilações e acelerando a convergência.
AdaGrad
Algoritmo de otimização que adapta a taxa de aprendizado de cada parâmetro com base na soma histórica dos quadrados dos gradientes, permitindo atualizações maiores para parâmetros pouco frequentes.
AdaDelta
Extensão do AdaGrad que resolve o problema da diminuição monótona da taxa de aprendizado usando uma janela deslizante de gradientes passados em vez da soma cumulativa.
Weight Decay
Método de regularização que penaliza pesos grandes adicionando um termo L2 à função de perda, ajudando a prevenir o overfitting e melhorando a generalização.
Beta Parameters (Adam)
Hiperparâmetros β1 e β2 controlando, respectivamente, as taxas de amortecimento exponencial para a média móvel do gradiente (momento de primeira ordem) e sua variância (momento de segunda ordem).
Bias Correction
Mecanismo no Adam que corrige o viés inicial das estimativas de momentos para zero, garantindo estimativas não enviesadas, particularmente importantes nos primeiros passos de treinamento.
Exponential Moving Average (EMA)
Técnica de suavização que atribui mais peso às observações recentes, utilizada em otimizadores adaptativos para estimar os momentos dos gradientes.
YOGI
Variante do Adam que utiliza um controlador de variância adaptativo para estabilizar o treinamento, particularmente eficaz quando os dados apresentam distribuições não estacionárias ou gradientes ruidosos.
Taxas de Aprendizagem Cíclicas
Estratégia que varia a taxa de aprendizagem ciclicamente entre limites mínimos e máximos, permitindo que o modelo escape de mínimos locais e explore diferentes bacias de atração.