Glosario IA
El diccionario completo de la Inteligencia Artificial
Escalado de atención
Técnica de normalización de los puntajes de atención mediante la división por la raíz cuadrada de la dimensionalidad para mantener una varianza constante y estabilizar el entrenamiento de los modelos Transformer.
Factor de escalado dimensional
Coeficiente √dk utilizado para normalizar los puntajes de atención, donde dk representa la dimensionalidad de los vectores de consulta y clave en la arquitectura Transformer.
Estabilización del gradiente
Proceso destinado a mantener los gradientes en un rango numérico estable durante la retropropagación, esencial para evitar problemas de entrenamiento en redes profundas.
Normalización de puntajes de atención
Normalización de los puntajes de similitud antes de la aplicación de Softmax para controlar la distribución de probabilidad y prevenir concentraciones extremas de atención.
Dimensionalidad de consulta-clave
Dimensión común de los vectores de consulta y clave en la atención multicabezal, cuya raíz cuadrada determina el factor de escala de normalización.
Control de varianza de atención
Mantenimiento de la varianza constante de los puntajes de atención a través de diferentes capas para asegurar una estabilidad numérica óptima del modelo.
Estabilidad numérica en la atención
Conjunto de técnicas que garantizan que los cálculos de atención permanezcan en rangos numéricos manejables, previniendo desbordamientos y subdesbordamientos de punto flotante.
Agudización de la distribución de puntajes
Fenómeno en el que las distribuciones de atención se vuelven demasiado concentradas sin una normalización adecuada, lo que lleva a un comportamiento subóptimo del modelo.
Escalado de atención multicabezal
Aplicación del factor de escala √dk independientemente a cada cabeza de atención en la arquitectura multicabezal para mantener la coherencia a través de las representaciones paralelas.
Normalización de la dimensión de embeddings
Técnica de normalización basada en la dimensionalidad de los embeddings para asegurar una magnitud comparable de las representaciones vectoriales en el espacio de atención.
Escalado de temperatura de atención
Ajuste dinámico del factor de escala para modular la concentración de la atención, permitiendo un control preciso sobre la distribución de los pesos de atención.
Optimización del flujo de gradientes
Optimización del flujo de gradientes a través de las capas de atención para mantener un aprendizaje efectivo en las redes profundas.
Regularización de la magnitud de puntuaciones
Control de la magnitud de las puntuaciones de atención mediante normalización para prevenir inestabilidades numéricas y mejorar la convergencia del modelo.
Preservación de la entropía de atención
Mantenimiento de un nivel de entropía apropiado en las distribuciones de atención gracias a la normalización, evitando distribuciones demasiado duras o demasiado uniformes.