Glossário IA
O dicionário completo da Inteligência Artificial
SVRG (Stochastic Variance Reduced Gradient)
Algoritmo de otimização que combina cálculos de gradiente completos periódicos com atualizações estocásticas para reduzir a variância. SVRG mantém uma referência do gradiente completo para corrigir as estimativas de gradiente estocásticas.
SAGA
Método de redução de variância que utiliza uma tabela de gradientes históricos para cada ponto de dados e realiza correções a cada iteração. SAGA combina as vantagens de SAG e SVRG com convergência linear garantida para problemas convexos.
SAG (Stochastic Average Gradient)
Algoritmo de otimização que mantém em memória os gradientes anteriores para cada ponto de dados e os atualiza de forma incremental. SAG reduz a variância usando a média dos gradientes históricos como estimativa de referência.
Mini-batch
Subconjunto de tamanho intermediário do conjunto de dados completo usado para calcular estimativas de gradiente a cada iteração. Os mini-batches reduzem a variância em comparação com o SGD puro, sendo mais eficientes do que os gradientes completos.
Control variates
Técnica estatística usada para reduzir a variância dos estimadores introduzindo uma variável de controle correlacionada. Na otimização estocástica, as control variates corrigem as estimativas de gradiente usando uma referência de baixa variância.
Gradient snapshot
Cálculo completo do gradiente armazenado periodicamente em algoritmos de redução de variância como SVRG. O snapshot serve como referência para corrigir as estimativas de gradiente estocásticas entre as atualizações completas.
Linear convergence
Taxa de convergência onde o erro decresce exponencialmente com o número de iterações para problemas convexos fortes. Os métodos de redução de variância como SVRG e SAGA alcançam convergência linear sob certas condições.
Gradient variance
Medida da variabilidade das estimativas de gradiente estocásticas devido à amostragem aleatória dos dados. A redução dessa variância é o objetivo principal das técnicas SVRG e SAGA para melhorar a convergência.
Complexidade de memória
Espaço de memória exigido pelo algoritmo para armazenar as informações necessárias para os cálculos. SAG e SAGA requerem O(n) de memória para armazenar os gradientes históricos, enquanto SVRG requer apenas O(1) de memória adicional.
Convexidade forte
Propriedade de uma função onde sua curvatura é limitada inferiormente por uma constante positiva. A convexidade forte é uma condição chave que garante a convergência linear dos métodos de redução de variância.
Operador proximal
Operação matemática que generaliza a projeção em um conjunto convexo para incluir termos de regularização. Os métodos de redução de variância podem ser combinados com operadores proximais para lidar com problemas não-diferenciáveis.
Estimador de gradiente estocástico
Estimador não-enviesado do gradiente verdadeiro calculado em um subconjunto aleatório dos dados. As técnicas de redução de variância modificam este estimador para reduzir sua variância, mantendo seu viés nulo.
Limite de variância
Limite superior teórico na variância das estimativas de gradiente garantida pelos algoritmos de redução de variância. Este limite está frequentemente ligado ao condicionamento do problema e à distância ao ótimo.
SARAH (Algoritmo de Gradiente Recursivo Estocástico)
Algoritmo de redução de variância que utiliza uma abordagem recursiva para atualizar o estimador de gradiente a cada iteração. SARAH combina ideias de SVRG e métodos de gradiente acelerado com convergência garantida.