Análisis de Cabezas de Atención

📖

términos

Análisis de Cabeza de Atención

Proceso de examen e interpretación de los pesos de atención producidos por cada cabeza para comprender los patrones y relaciones específicos que cada cabeza ha aprendido a capturar.

📖

términos

Especialización de Cabezas

Fenómeno donde diferentes cabezas de atención en una misma capa se especializan para aprender tipos de relaciones lingüísticas distintas, como sintaxis, semántica o dependencias de largo alcance.

📖

términos

Matriz de Pesos de Atención

Matriz cuadrada generada por una cabeza de atención, donde cada elemento (i, j) representa la puntuación de importancia o relevancia del token j para el token i en el contexto de la secuencia.

📖

términos

Mapa de Atención

Visualización de la matriz de pesos de atención, frecuentemente en forma de mapa de calor, que ilustra gráficamente las relaciones de enfoque de una cabeza de atención sobre una secuencia de entrada.

📖

términos

Rol Sintáctico

Tipo de relación, como la vinculación sujeto-verbo o la dependencia entre un nombre y su adjetivo, que una cabeza de atención especializada puede aprender a detectar y modelar.

📖

términos

Función de una cabeza de atención que se concentra principalmente en las relaciones de posición relativa entre los tokens, ayudando al modelo a comprender el orden de las palabras independientemente de su contenido semántico.

📖

términos

Cabeza de Posición

Cabeza de atención cuyos pesos de atención revelan patrones fuertemente vinculados a la distancia relativa entre los tokens, actuando como un mecanismo para codificar la estructura secuencial.

📖

términos

Cabeza de Subpalabra

Cabeza de atención especializada en la gestión de relaciones entre fragmentos de palabras (subwords) generados por tokenizadores como BPE, ayudando a reconstruir la coherencia léxica.

📖

términos

Cabeza de Recuperación (Retrieval Head)

Cabeza de atención identificada en modelos de gran escala que se comporta como un mecanismo de recuperación de información, conectándose fuertemente con tokens específicos que actúan como 'claves' para conocimientos memorizados.

📖

términos

Redundancia de Cabezas (Head Redundancy)

Observación de que algunas cabezas de atención en un modelo sobreparametrizado aprenden funciones muy similares o idénticas, sugiriendo una potencial ineficiencia en el uso de recursos.

📖

términos

Poda de Cabeza de Atención (Attention Head Pruning)

Técnica de compresión de modelos que consiste en identificar y eliminar las cabezas de atención consideradas redundantes o poco importantes para reducir el tamaño del modelo y su costo computacional con un impacto mínimo en el rendimiento.

📖

términos

Puntuación de Importancia de Cabeza (Head Importance Score)

Métrica cuantitativa, a menudo derivada de la sensibilidad de la pérdida o del rendimiento del modelo a la eliminación de una cabeza, utilizada para clasificar las cabezas por su contribución al funcionamiento global.

📖

términos

Análisis por Inducción de Cabeza (Head Induction Analysis)

Metodología que consiste en entrenar un modelo supervisor simple (como un clasificador lineal) sobre las salidas de una cabeza de atención para descubrir la función subyacente que esta cabeza ha aprendido a representar.

📖

términos

Patrón de Atención Diagonal (Diagonal Attention Pattern)

Patrón de pesos de atención donde una cabeza se concentra principalmente en el token mismo (auto-atención), frecuentemente observado en las capas inferiores para refinar las representaciones locales.

📖

términos

Patrón de Atención Vertical (Vertical Attention Pattern)

Patrón donde una cabeza de atención se concentra en un token de referencia específico (a menudo el token de inicio de secuencia o un marcador de clase) para todas las posiciones, agregando información para una tarea de clasificación.

📖

términos

Patrón de Atención de Bloque (Block Attention Pattern)

Patrón donde una cabeza de atención se concentra en segmentos contiguos de la secuencia, indicando una especialización en el procesamiento de frases o cláusulas locales.

📖

términos

Cabeza de Traducción

En modelos multilingües, cabeza de atención que aprende a alinear palabras y frases entre diferentes idiomas, facilitando la transferencia de conocimientos lingüísticos.

📖

términos

Mecanismo de Atención Multi-cabezas

Componente fundamental de los Transformers que ejecuta en paralelo múltiples cabezas de atención, concatena sus salidas y las proyecta para permitir al modelo concentrarse en diferentes posiciones y diferentes espacios de representación simultáneamente.

📖

términos

Interpretabilidad de las Cabezas

Ámbito de investigación que busca desarrollar métodos para comprender, cuantificar y visualizar la función específica de cada cabeza de atención con el fin de desmitificar el funcionamiento interno de los modelos Transformer.

Glosario IA

Análisis de Cabeza de Atención

Especialización de Cabezas

Matriz de Pesos de Atención

Mapa de Atención

Rol Sintáctico

Rol Posicional

Cabeza de Posición

Cabeza de Subpalabra

Cabeza de Recuperación (Retrieval Head)

Redundancia de Cabezas (Head Redundancy)

Poda de Cabeza de Atención (Attention Head Pruning)

Puntuación de Importancia de Cabeza (Head Importance Score)

Análisis por Inducción de Cabeza (Head Induction Analysis)

Patrón de Atención Diagonal (Diagonal Attention Pattern)

Patrón de Atención Vertical (Vertical Attention Pattern)

Patrón de Atención de Bloque (Block Attention Pattern)

Cabeza de Traducción

Mecanismo de Atención Multi-cabezas

Interpretabilidad de las Cabezas

No se encontraron resultados