Autoatención multi-cabeza

📖

términos

Auto-Atención Multi-Cabeza

Mecanismo donde el modelo calcula varias veces la atención en paralelo con diferentes proyecciones lineales de las consultas, claves y valores, permitiendo capturar dependencias variadas en distintas posiciones de la secuencia.

📖

términos

Consulta (Query)

Vector que representa el elemento actual para el cual se busca calcular la atención, utilizado para interactuar con las claves con el fin de determinar la importancia de cada valor en la secuencia.

📖

términos

Clave (Key)

Vector asociado a cada elemento de la secuencia, utilizado para ser comparado con la consulta con el fin de calcular la puntuación de atención y determinar la relevancia de cada elemento.

📖

términos

Valor (Value)

Vector que contiene la información real de cada elemento de la secuencia, ponderado por los pesos de atención para producir la salida del mecanismo de atención.

📖

términos

Proyección Lineal

Operación de multiplicación matricial aplicada a las consultas, claves y valores en cada cabeza de atención para proyectarlos en subespacios de dimensión inferior, permitiendo representaciones diversificadas.

📖

términos

Dimensión del Modelo (d_model)

Tamaño del espacio de embedding utilizado para las representaciones de las consultas, claves y valores tras la concatenación de las cabezas, parámetro clave en la arquitectura Transformer.

📖

términos

Dimensión de la Cabeza (d_k)

Dimensión reducida a la cual son proyectadas las consultas y claves en cada cabeza de atención, calculada como la dimensión del modelo dividida por el número de cabezas.

📖

términos

Dimensión del Valor (d_v)

Dimensión a la cual son proyectados los vectores de valor en cada cabeza de atención, frecuentemente idéntica a la dimensión de la cabeza (d_k) para simplificar la arquitectura.

📖

términos

Softmax sur les Clés

Application de la fonction softmax aux scores d'attention (produits scalaires requête-clé) pour obtenir une distribution de probabilité normalisée servant de poids d'attention.

📖

términos

Mécanisme d'Attention Parallèle

Implémentation où toutes les têtes d'attention sont calculées simultanément en utilisant des opérations matricielles groupées, optimisant l'efficacité computationnelle sur les GPU.

📖

términos

Sous-Espace de Représentation

Espace vectoriel de dimension inférieure dans lequel chaque tête d'attention projette les données, permettant de capturer différents types de relations et de motifs dans les données.

📖

términos

Poids d'Attention (Attention Weights)

Coefficients normalisés issus de la fonction softmax qui quantifient l'importance de chaque valeur pour la construction de la sortie de l'élément courant.

📖

términos

Dépendance à Longue Portée

Capacité du mécanisme d'auto-attention à modéliser directement les relations entre des tokens éloignés dans la séquence, surmontant une limitation des réseaux récurrents.

Glosario IA