Escalado de atención

📖

términos

Escalado de atención

Técnica de normalización de los puntajes de atención mediante la división por la raíz cuadrada de la dimensionalidad para mantener una varianza constante y estabilizar el entrenamiento de los modelos Transformer.

📖

términos

Factor de escalado dimensional

Coeficiente √dk utilizado para normalizar los puntajes de atención, donde dk representa la dimensionalidad de los vectores de consulta y clave en la arquitectura Transformer.

📖

términos

Estabilización del gradiente

Proceso destinado a mantener los gradientes en un rango numérico estable durante la retropropagación, esencial para evitar problemas de entrenamiento en redes profundas.

📖

términos

Normalización de puntajes de atención

Normalización de los puntajes de similitud antes de la aplicación de Softmax para controlar la distribución de probabilidad y prevenir concentraciones extremas de atención.

📖

términos

Dimensionalidad de consulta-clave

Dimensión común de los vectores de consulta y clave en la atención multicabezal, cuya raíz cuadrada determina el factor de escala de normalización.

📖

términos

Control de varianza de atención

Mantenimiento de la varianza constante de los puntajes de atención a través de diferentes capas para asegurar una estabilidad numérica óptima del modelo.

📖

términos

Estabilidad numérica en la atención

Conjunto de técnicas que garantizan que los cálculos de atención permanezcan en rangos numéricos manejables, previniendo desbordamientos y subdesbordamientos de punto flotante.

📖

términos

Agudización de la distribución de puntajes

Fenómeno en el que las distribuciones de atención se vuelven demasiado concentradas sin una normalización adecuada, lo que lleva a un comportamiento subóptimo del modelo.

📖

términos

Escalado de atención multicabezal

Aplicación del factor de escala √dk independientemente a cada cabeza de atención en la arquitectura multicabezal para mantener la coherencia a través de las representaciones paralelas.

📖

términos

Normalización de la dimensión de embeddings

Técnica de normalización basada en la dimensionalidad de los embeddings para asegurar una magnitud comparable de las representaciones vectoriales en el espacio de atención.

📖

términos

Escalado de temperatura de atención

Ajuste dinámico del factor de escala para modular la concentración de la atención, permitiendo un control preciso sobre la distribución de los pesos de atención.

📖

términos

Optimización del flujo de gradientes

Optimización del flujo de gradientes a través de las capas de atención para mantener un aprendizaje efectivo en las redes profundas.

📖

términos

Regularización de la magnitud de puntuaciones

Control de la magnitud de las puntuaciones de atención mediante normalización para prevenir inestabilidades numéricas y mejorar la convergencia del modelo.

📖

términos

Preservación de la entropía de atención

Mantenimiento de un nivel de entropía apropiado en las distribuciones de atención gracias a la normalización, evitando distribuciones demasiado duras o demasiado uniformes.

Glosario IA

Escalado de atención

Factor de escalado dimensional

Estabilización del gradiente

Normalización de puntajes de atención

Dimensionalidad de consulta-clave

Control de varianza de atención

Estabilidad numérica en la atención

Agudización de la distribución de puntajes

Escalado de atención multicabezal

Normalización de la dimensión de embeddings

Escalado de temperatura de atención

Optimización del flujo de gradientes

Regularización de la magnitud de puntuaciones

Preservación de la entropía de atención

No se encontraron resultados