Métodos de Gradiente Estocástico

📖

termos

Adagrad

Algoritmo de otimização adaptativo que ajusta dinamicamente a taxa de aprendizado para cada parâmetro com base no histórico de gradientes acumulados. Permite atualizações maiores para parâmetros pouco frequentes e menores para os frequentes.

📖

termos

RMSprop

Método de otimização que resolve o problema de decaimento excessivo da taxa de aprendizado do Adagrad usando uma média móvel exponencial dos quadrados dos gradientes. O RMSprop mantém uma taxa de aprendizado adaptativa sem decaimento drástico.

📖

termos

Decaimento da taxa de aprendizado

Técnica de regularização que reduz progressivamente a taxa de aprendizado durante o treinamento para permitir uma convergência mais fina para o ótimo. O decaimento ajuda a estabilizar a otimização nas fases finais de aprendizado.

📖

termos

Ruído de gradiente

Variabilidade estatística inerente às estimativas de gradiente em métodos estocásticos devido à amostragem aleatória dos dados. O ruído pode ajudar a escapar de mínimos locais, mas requer técnicas para controlar sua variância.

📖

termos

Variância do gradiente

Medida da dispersão das estimativas de gradiente em métodos estocásticos, influenciando diretamente a estabilidade da otimização. A redução de variância é um objetivo chave para melhorar a eficácia dos algoritmos estocásticos.

📖

termos

Tamanho do batch

Número de amostras usadas para calcular cada estimativa de gradiente nos métodos mini-batch. O tamanho do batch influencia o compromisso entre eficiência computacional, qualidade da estimativa do gradiente e generalização.

📖

termos

Época

Ciclo completo de treinamento onde cada amostra do conjunto de dados foi usada exatamente uma vez para atualizar os parâmetros. As épocas permitem estruturar o treinamento e monitorar o progresso do aprendizado.

📖

termos

Método de Robbins-Monro

Algoritmo fundamental de aproximação estocástica que converge para os zeros de uma função usando observações ruidosas e passos decrescentes. Este método constitui a base teórica da descida de gradiente estocástica moderna.

Glossário IA

Adagrad

RMSprop

Decaimento da taxa de aprendizado

Ruído de gradiente

Variância do gradiente

Tamanho do batch

Época

Método de Robbins-Monro

Nenhum resultado encontrado