🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Regularização L2 desacoplada

Separação da decadência dos pesos da atualização do gradiente para aplicar a regularização independentemente da etapa de otimização.

📖
termos

Hiperparâmetros beta1 e beta2

Coeficientes que controlam, respectivamente, a decadência exponencial dos momentos de primeira e segunda ordem no algoritmo AdamW.

📖
termos

Momento de primeira ordem

Média móvel exponencial dos gradientes que captura a direção média da descida para acelerar a convergência em vales de erro.

📖
termos

Momento de segunda ordem

Média móvel exponencial dos quadrados dos gradientes que estima a variância para adaptar a taxa de aprendizado de acordo com a curvatura local.

📖
termos

Epsilon de estabilização

Pequena constante adicionada ao denominador para evitar a divisão por zero e garantir a estabilidade numérica durante a normalização dos gradientes.

📖
termos

Convergência assintótica

Propriedade teórica que garante que o algoritmo atinge um ponto crítico quando o número de iterações tende ao infinito sob certas condições.

📖
termos

Decomposição do gradiente

Separação vetorial do gradiente em componentes de decadência dos pesos e de atualização propriamente dita na implementação do AdamW.

📖
termos

Viés de inicialização a frio

Problema de estimativa enviesada dos momentos nas primeiras iterações devido à inicialização em zero, corrigido pelos fatores de viés do AdamW.

📖
termos

Fator de decaimento do peso

Parâmetro lambda que controla a intensidade da regularização L2 desacoplada aplicada independentemente a cada atualização de peso.

📖
termos

Normalização adaptativa

Divisão do gradiente pela raiz quadrada de seu momento de segunda ordem para normalizar a magnitude das atualizações de acordo com o histórico dos gradientes.

🔍

Nenhum resultado encontrado