🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Momento de Nesterov

Variante do algoritmo de momento que aplica uma correção antecipada calculando o gradiente na posição futura estimada, acelerando a convergência e reduzindo as oscilações.

📖
termos

Adam (Adaptive Moment Estimation)

Algoritmo de otimização que combina as ideias de Momentum e RMSprop, utilizando estimativas dos primeiros e segundos momentos dos gradientes para adaptar as taxas de aprendizado de cada parâmetro.

📖
termos

AdaGrad

Otimizador adaptativo que ajusta a taxa de aprendizado de cada parâmetro com base na soma histórica dos quadrados de seus gradientes, favorecendo parâmetros pouco frequentes.

📖
termos

AdaDelta

Extensão do AdaGrad que limita a janela de acumulação de gradientes passados a um tamanho fixo através de uma média móvel deslizante, evitando a diminuição agressiva da taxa de aprendizado.

📖
termos

Decaimento da Taxa de Aprendizado

Estratégia de redução progressiva da taxa de aprendizado durante o treinamento, frequentemente de acordo com um cronograma predefinido (passo, exponencial ou cosseno), para refinar a convergência para um mínimo.

📖
termos

Otimizador LAMB (Layer-wise Adaptive Moments)

Algoritmo de otimização projetado para treinamento em larga escala, adaptando a taxa de aprendizado por camada usando a norma dos pesos e dos gradientes, eficaz para lotes de dados muito grandes.

📖
termos

Otimizador LARS (Layer-wise Adaptive Rate Scaling)

Método de otimização que adapta a taxa de aprendizado para cada camada com base na razão entre a norma dos pesos e a norma dos gradientes, particularmente adequado para treinamento com grandes lotes.

📖
termos

Lookahead Optimizer

Mecanismo de otimização que atualiza periodicamente os pesos 'lentos' em direção à média dos pesos 'rápidos' gerados por um otimizador interno, melhorando a generalização e a estabilidade da convergência.

📖
termos

RAdam (Rectified Adam)

Variante do Adam que corrige a variância da adaptação da taxa de aprendizado nas primeiras etapas do treinamento, oferecendo uma convergência mais estável sem a necessidade de uma fase de aquecimento (warmup).

📖
termos

SWATS (Switching from Adam to SGD)

Estratégia que inicia o treinamento com um otimizador adaptativo como o Adam para uma convergência rápida, e depois muda para a Descida de Gradiente Estocástica (SGD) para uma melhor generalização.

📖
termos

Otimizador Yogi

Modificação do Adam que visa proporcionar uma convergência mais estável usando uma atualização do segundo momento menos agressiva, reduzindo as oscilações e melhorando o desempenho em tarefas complexas.

📖
termos

Shampoo

Otimizador de segunda ordem que pré-condiciona os gradientes usando aproximações da matriz Hessiana por blocos, acelerando a convergência para problemas mal-condicionados.

📖
termos

Reinício da Taxa de Aprendizado (Learning Rate Restart)

Técnica cíclica onde a taxa de aprendizado é periodicamente redefinida para seu valor inicial, permitindo que o modelo escape de mínimos locais e explore novas regiões do espaço de soluções.

🔍

Nenhum resultado encontrado