Glossário IA
O dicionário completo da Inteligência Artificial
Momento clássico
Técnica de otimização que acumula gradientes passados com um fator de decaimento para criar inércia nas atualizações de peso. Esta abordagem permite acelerar a convergência em direções constantes enquanto amortece as oscilações.
Fator de momento (beta)
Parâmetro hiperparamétrico que controla a influência dos gradientes anteriores na atualização atual, tipicamente fixado entre 0.9 e 0.99. Um valor mais alto aumenta a inércia e estabiliza a trajetória de otimização em vales estreitos.
Velocidade do gradiente
Vetor que acumula os gradientes ponderados das iterações anteriores, representando a direção e a velocidade de descida no espaço dos parâmetros. A velocidade é atualizada a cada iteração por uma combinação linear do gradiente atual e da velocidade anterior.
Inércia na otimização
Fenômeno físico análogo onde as atualizações de parâmetros conservam parte do seu impulso anterior, permitindo superar platôs e mínimos locais rasos. A inércia é particularmente eficaz para navegar em paisagens de perda complexas e não convexas.
Oscilações amortecidas
Redução progressiva das flutuações em torno da direção ótima de descida graças à acumulação de momento em direções consistentes. Este mecanismo estabiliza particularmente a otimização em vales estreitos onde os gradientes são fortemente correlacionados.
Momento adaptativo
Extensão do momento onde o fator de inércia é ajustado dinamicamente em função das características locais da paisagem de otimização. Esta adaptação permite um equilíbrio ótimo entre exploração e explotação de acordo com a geometria da superfície de perda.
Histórico de gradientes
Memória dos gradientes anteriores utilizada para calcular a direção de atualização atual, permitindo capturar as tendências de longo prazo da descida. O histórico exponencialmente ponderado privilegia os gradientes recentes enquanto conserva a informação das iterações anteriores.
Massa virtual
Conceito análogo que representa a resistência à mudança na trajetória de otimização, controlada pelo fator de momento. Uma massa virtual elevada produz movimentos mais fluidos e menos sensíveis aos ruídos de gradiente instantâneos.
Força de Fricção
Mecanismo de regularização implícito no momentum que contrabalança a aceleração para evitar a divergência, geralmente implementado através do fator (1-beta). Esta força assegura a estabilidade numérica e garante a convergência para mínimos significativos.
Momentum Estocástico
Aplicação do momentum na otimização estocástica onde os gradientes ruidosos são temporalmente médios para reduzir a variância das estimativas. Esta técnica é particularmente eficaz no treinamento em grandes conjuntos de dados com mini-batches.
Momentum por Mini-Batch
Estratégia onde a velocidade é atualizada após cada mini-batch em vez de após cada amostra individual, oferecendo um compromisso entre estabilidade e custo computacional. Esta abordagem permite uma melhor generalização, mantendo os benefícios do momentum.
Decaimento do Momentum
Técnica de ajuste do fator de momentum durante o treinamento, tipicamente reduzindo-o progressivamente para refinar a convergência final. Esta estratégia combina exploração rápida no início do treinamento e precisão no final da otimização.
Momentum Cíclico
Variação periódica do fator de momentum sincronizada com os ciclos de aprendizagem para escapar de mínimos locais e explorar o espaço de soluções. Esta abordagem é frequentemente combinada com taxas de aprendizagem cíclicas para uma otimização global aprimorada.
Momentum Warm-up
Fase inicial de treinamento onde o fator de momentum é progressivamente aumentado a partir de zero para evitar instabilidades nas primeiras iterações. Esta técnica permite uma estabilização progressiva da otimização em redes profundas.