Glosario IA
El diccionario completo de la Inteligencia Artificial
Análisis de Cabeza de Atención
Proceso de examen e interpretación de los pesos de atención producidos por cada cabeza para comprender los patrones y relaciones específicos que cada cabeza ha aprendido a capturar.
Especialización de Cabezas
Fenómeno donde diferentes cabezas de atención en una misma capa se especializan para aprender tipos de relaciones lingüísticas distintas, como sintaxis, semántica o dependencias de largo alcance.
Matriz de Pesos de Atención
Matriz cuadrada generada por una cabeza de atención, donde cada elemento (i, j) representa la puntuación de importancia o relevancia del token j para el token i en el contexto de la secuencia.
Mapa de Atención
Visualización de la matriz de pesos de atención, frecuentemente en forma de mapa de calor, que ilustra gráficamente las relaciones de enfoque de una cabeza de atención sobre una secuencia de entrada.
Rol Sintáctico
Tipo de relación, como la vinculación sujeto-verbo o la dependencia entre un nombre y su adjetivo, que una cabeza de atención especializada puede aprender a detectar y modelar.
Rol Posicional
Función de una cabeza de atención que se concentra principalmente en las relaciones de posición relativa entre los tokens, ayudando al modelo a comprender el orden de las palabras independientemente de su contenido semántico.
Cabeza de Posición
Cabeza de atención cuyos pesos de atención revelan patrones fuertemente vinculados a la distancia relativa entre los tokens, actuando como un mecanismo para codificar la estructura secuencial.
Cabeza de Subpalabra
Cabeza de atención especializada en la gestión de relaciones entre fragmentos de palabras (subwords) generados por tokenizadores como BPE, ayudando a reconstruir la coherencia léxica.
Cabeza de Recuperación (Retrieval Head)
Cabeza de atención identificada en modelos de gran escala que se comporta como un mecanismo de recuperación de información, conectándose fuertemente con tokens específicos que actúan como 'claves' para conocimientos memorizados.
Redundancia de Cabezas (Head Redundancy)
Observación de que algunas cabezas de atención en un modelo sobreparametrizado aprenden funciones muy similares o idénticas, sugiriendo una potencial ineficiencia en el uso de recursos.
Poda de Cabeza de Atención (Attention Head Pruning)
Técnica de compresión de modelos que consiste en identificar y eliminar las cabezas de atención consideradas redundantes o poco importantes para reducir el tamaño del modelo y su costo computacional con un impacto mínimo en el rendimiento.
Puntuación de Importancia de Cabeza (Head Importance Score)
Métrica cuantitativa, a menudo derivada de la sensibilidad de la pérdida o del rendimiento del modelo a la eliminación de una cabeza, utilizada para clasificar las cabezas por su contribución al funcionamiento global.
Análisis por Inducción de Cabeza (Head Induction Analysis)
Metodología que consiste en entrenar un modelo supervisor simple (como un clasificador lineal) sobre las salidas de una cabeza de atención para descubrir la función subyacente que esta cabeza ha aprendido a representar.
Patrón de Atención Diagonal (Diagonal Attention Pattern)
Patrón de pesos de atención donde una cabeza se concentra principalmente en el token mismo (auto-atención), frecuentemente observado en las capas inferiores para refinar las representaciones locales.
Patrón de Atención Vertical (Vertical Attention Pattern)
Patrón donde una cabeza de atención se concentra en un token de referencia específico (a menudo el token de inicio de secuencia o un marcador de clase) para todas las posiciones, agregando información para una tarea de clasificación.
Patrón de Atención de Bloque (Block Attention Pattern)
Patrón donde una cabeza de atención se concentra en segmentos contiguos de la secuencia, indicando una especialización en el procesamiento de frases o cláusulas locales.
Cabeza de Traducción
En modelos multilingües, cabeza de atención que aprende a alinear palabras y frases entre diferentes idiomas, facilitando la transferencia de conocimientos lingüísticos.
Mecanismo de Atención Multi-cabezas
Componente fundamental de los Transformers que ejecuta en paralelo múltiples cabezas de atención, concatena sus salidas y las proyecta para permitir al modelo concentrarse en diferentes posiciones y diferentes espacios de representación simultáneamente.
Interpretabilidad de las Cabezas
Ámbito de investigación que busca desarrollar métodos para comprender, cuantificar y visualizar la función específica de cada cabeza de atención con el fin de desmitificar el funcionamiento interno de los modelos Transformer.