🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

Regularización L2 desacoplada

Separación de la disminución de pesos de la actualización del gradiente para aplicar la regularización de forma independiente del paso de optimización.

📖
términos

Hiperparámetros beta1 y beta2

Coeficientes que controlan respectivamente la disminución exponencial de los momentos de primer y segundo orden en el algoritmo AdamW.

📖
términos

Momento de primer orden

Media móvil exponencial de los gradientes que captura la dirección promedio del descenso para acelerar la convergencia en los valles de error.

📖
términos

Momento de segundo orden

Media móvil exponencial de los cuadrados de los gradientes que estima la varianza para adaptar la tasa de aprendizaje según la curvatura local.

📖
términos

Épsilon de estabilización

Pequeña constante añadida al denominador para evitar la división por cero y asegurar la estabilidad numérica durante la normalización de los gradientes.

📖
términos

Convergencia asintótica

Propiedad teórica que garantiza que el algoritmo alcanza un punto crítico cuando el número de iteraciones tiende a infinito bajo ciertas condiciones.

📖
términos

Descomposición del gradiente

Separación vectorial del gradiente en componentes de disminución de pesos y de actualización propiamente dicha en la implementación de AdamW.

📖
términos

Sesgo de arranque en frío

Problema de estimación sesgada de los momentos durante las primeras iteraciones debido a la inicialización a cero, corregido por los factores de sesgo de AdamW.

📖
términos

Factor de decaimiento del peso

Parámetro lambda que controla la intensidad de la regularización L2 desacoplada aplicada independientemente a cada actualización de peso.

📖
términos

Normalización adaptativa

División del gradiente por la raíz cuadrada de su momento de segundo orden para normalizar la magnitud de las actualizaciones según el historial de gradientes.

🔍

No se encontraron resultados