Glosario IA
El diccionario completo de la Inteligencia Artificial
Proyección Lineal
Transformación lineal aplicada a los embeddings de entrada para generar los espacios Query, Key y Value en cada cabeza de atención multicabezal.
Máscara de Atención
Técnica que aplica valores infinitamente negativos a ciertas posiciones en la matriz de atención para prevenir interacciones no deseadas entre elementos de secuencia.
Concatenación Multicabezal
Operación que combina las salidas de todas las cabezas de atención concatenando sus representaciones antes de una proyección lineal final para producir el output.
Embedding Contextual
Representación vectorial enriquecida generada por el mecanismo de atención que incorpora información contextual de toda la secuencia para cada elemento.
Dimensión de Cabeza de Atención
Dimensionalidad reducida de cada subespacio de atención en Atención Multicabezal, típicamente calculada como dimensión_modelo / número_de_cabezas.
Cálculo de Atención Paralelo
Proceso donde las múltiples cabezas de atención se calculan simultáneamente en paralelo, permitiendo una captura eficiente de diferentes aspectos de las relaciones secuenciales.
Conexión Residual de Atención
Conexión residual que añade el input original al output de la capa de atención, facilitando el entrenamiento de redes profundas preservando el flujo de información.
Distribución de Atención
Distribución de probabilidad sobre los elementos de la secuencia generada por softmax, indicando dónde el modelo 'mira' al procesar un elemento específico.