🏠 Inicio
Pruebas de rendimiento
📊 Todos los benchmarks 🦖 Dinosaurio v1 🦖 Dinosaurio v2 ✅ Aplicaciones To-Do List 🎨 Páginas libres creativas 🎯 FSACB - Showcase definitivo 🌍 Benchmark de traducción
Modelos
🏆 Top 10 modelos 🆓 Modelos gratuitos 📋 Todos los modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de prompts 📖 Glosario de IA 🔗 Enlaces útiles

Glosario IA

El diccionario completo de la Inteligencia Artificial

231
categorías
2.999
subcategorías
35.535
términos
📖
términos

RMSprop

Método de optimización adaptativo que utiliza un promedio móvil ponderado del cuadrado de los gradientes para normalizar la tasa de aprendizaje, previniendo así las oscilaciones y acelerando la convergencia.

📖
términos

AdaGrad

Algoritmo de optimización que adapta la tasa de aprendizaje de cada parámetro en función de la suma histórica de los cuadrados de los gradientes, permitiendo actualizaciones más grandes para los parámetros poco frecuentes.

📖
términos

AdaDelta

Extensión de AdaGrad que resuelve el problema de la disminución monótona de la tasa de aprendizaje utilizando una ventana deslizante de gradientes pasados en lugar de la suma acumulada.

📖
términos

Weight Decay

Método de regularización que penaliza los pesos grandes añadiendo un término L2 a la función de pérdida, ayudando a prevenir el sobreajuste y mejorando la generalización.

📖
términos

Parámetros Beta (Adam)

Hiperparámetros β1 y β2 que controlan respectivamente las tasas de amortiguación exponencial para el promedio móvil del gradiente (momento de primer orden) y su varianza (momento de segundo orden).

📖
términos

Corrección de Sesgo

Mecanismo en Adam que corrige el sesgo inicial de las estimaciones de momentos hacia cero, garantizando estimaciones no sesgadas, particularmente importantes en los primeros pasos de entrenamiento.

📖
términos

Promedio Móvil Exponencial (EMA)

Técnica de suavizado que asigna más peso a las observaciones recientes, utilizada en optimizadores adaptativos para estimar los momentos de los gradientes.

📖
términos

YOGI

Variante de Adam que utiliza un controlador de varianza adaptativo para estabilizar el entrenamiento, particularmente eficaz cuando los datos presentan distribuciones no estacionarias o gradientes ruidosos.

📖
términos

Tasas de aprendizaje cíclicas

Estrategia que varía la tasa de aprendizaje de forma cíclica entre límites mínimos y máximos, permitiendo que el modelo escape de mínimos locales y explore diferentes cuencas de atracción.

🔍

No se encontraron resultados