Glosario IA
El diccionario completo de la Inteligencia Artificial
Auto-Atención Multi-Cabeza
Mecanismo donde el modelo calcula varias veces la atención en paralelo con diferentes proyecciones lineales de las consultas, claves y valores, permitiendo capturar dependencias variadas en distintas posiciones de la secuencia.
Consulta (Query)
Vector que representa el elemento actual para el cual se busca calcular la atención, utilizado para interactuar con las claves con el fin de determinar la importancia de cada valor en la secuencia.
Clave (Key)
Vector asociado a cada elemento de la secuencia, utilizado para ser comparado con la consulta con el fin de calcular la puntuación de atención y determinar la relevancia de cada elemento.
Valor (Value)
Vector que contiene la información real de cada elemento de la secuencia, ponderado por los pesos de atención para producir la salida del mecanismo de atención.
Proyección Lineal
Operación de multiplicación matricial aplicada a las consultas, claves y valores en cada cabeza de atención para proyectarlos en subespacios de dimensión inferior, permitiendo representaciones diversificadas.
Dimensión del Modelo (d_model)
Tamaño del espacio de embedding utilizado para las representaciones de las consultas, claves y valores tras la concatenación de las cabezas, parámetro clave en la arquitectura Transformer.
Dimensión de la Cabeza (d_k)
Dimensión reducida a la cual son proyectadas las consultas y claves en cada cabeza de atención, calculada como la dimensión del modelo dividida por el número de cabezas.
Dimensión del Valor (d_v)
Dimensión a la cual son proyectados los vectores de valor en cada cabeza de atención, frecuentemente idéntica a la dimensión de la cabeza (d_k) para simplificar la arquitectura.
Softmax sur les Clés
Application de la fonction softmax aux scores d'attention (produits scalaires requête-clé) pour obtenir une distribution de probabilité normalisée servant de poids d'attention.
Mécanisme d'Attention Parallèle
Implémentation où toutes les têtes d'attention sont calculées simultanément en utilisant des opérations matricielles groupées, optimisant l'efficacité computationnelle sur les GPU.
Sous-Espace de Représentation
Espace vectoriel de dimension inférieure dans lequel chaque tête d'attention projette les données, permettant de capturer différents types de relations et de motifs dans les données.
Poids d'Attention (Attention Weights)
Coefficients normalisés issus de la fonction softmax qui quantifient l'importance de chaque valeur pour la construction de la sortie de l'élément courant.
Dépendance à Longue Portée
Capacité du mécanisme d'auto-attention à modéliser directement les relations entre des tokens éloignés dans la séquence, surmontant une limitation des réseaux récurrents.