Análise das Cabeças de Atenção

📖

termos

Análise da Cabeça de Atenção (Attention Head Analysis)

Processo de examinar e interpretar os pesos de atenção produzidos por cada cabeça para compreender os padrões e as relações específicas que cada cabeça aprendeu a capturar.

📖

termos

Especialização das Cabeças (Head Specialization)

Fenômeno onde diferentes cabeças de atenção na mesma camada se especializam para aprender tipos distintos de relações linguísticas, como sintaxe, semântica ou dependências de longa distância.

📖

termos

Matriz de Pesos de Atenção (Attention Weight Matrix)

Matriz quadrada gerada por uma cabeça de atenção, onde cada elemento (i, j) representa a pontuação de importância ou relevância do token j para o token i no contexto da sequência.

📖

termos

Mapa de Atenção (Attention Map)

Visualização da matriz de pesos de atenção, frequentemente na forma de um mapa de calor (heatmap), que ilustra graficamente as relações de foco de uma cabeça de atenção sobre uma sequência de entrada.

📖

termos

Papel Sintático (Syntactic Role)

Tipo de relação, como a ligação sujeito-verbo ou a dependência entre um substantivo e seu adjetivo, que uma cabeça de atenção especializada pode aprender a detectar e modelar.

📖

termos

Papel Posicional (Positional Role)

Função de uma cabeça de atenção que se concentra principalmente nas relações de posição relativa entre os tokens, ajudando o modelo a compreender a ordem das palavras independentemente de seu conteúdo semântico.

📖

termos

Cabeça Posicional (Positional Head)

Cabeça de atenção cujos pesos de atenção revelam padrões fortemente ligados à distância relativa entre os tokens, agindo como um mecanismo para codificar a estrutura sequencial.

📖

termos

Cabeça de Subpalavra (Subword Head)

Cabeça de atenção especializada na gestão das relações entre os fragmentos de palavras (subwords) gerados por tokenizadores como BPE, ajudando a reconstruir a coerência lexical.

📖

termos

Cabeça de Recuperação (Retrieval Head)

Cabeça de atenção identificada em modelos de grande escala que se comporta como um mecanismo de recuperação de informações, conectando-se fortemente a tokens específicos que atuam como 'chaves' para conhecimentos memorizados.

📖

termos

Redundância de Cabeças (Head Redundancy)

Observação de que certas cabeças de atenção em um modelo superparametrizado aprendem funções muito semelhantes ou idênticas, sugerindo uma potencial ineficiência na utilização dos recursos.

📖

termos

Poda de Cabeça de Atenção (Attention Head Pruning)

Técnica de compressão de modelo que consiste em identificar e remover cabeças de atenção consideradas redundantes ou pouco importantes para reduzir o tamanho do modelo e seu custo computacional com impacto mínimo no desempenho.

📖

termos

Pontuação de Importância da Cabeça (Head Importance Score)

Métrica quantitativa, frequentemente derivada da sensibilidade da perda ou do desempenho do modelo à remoção de uma cabeça, usada para classificar as cabeças pela sua contribuição para o funcionamento global.

📖

termos

Análise por Indução de Cabeça (Head Induction Analysis)

Metodologia que consiste em treinar um modelo supervisor simples (como um classificador linear) nas saídas de uma cabeça de atenção para descobrir a função subjacente que essa cabeça aprendeu a representar.

📖

termos

Padrão de Atenção Diagonal (Diagonal Attention Pattern)

Padrão de pesos de atenção onde uma cabeça se concentra principalmente no próprio token (autoatenção), frequentemente observado nas camadas inferiores para refinar as representações locais.

📖

termos

Padrão de Atenção Vertical (Vertical Attention Pattern)

Padrão onde uma cabeça de atenção se concentra em um token de referência específico (frequentemente o token de início de sequência ou um marcador de classe) para todas as posições, agregando informações para uma tarefa de classificação.

📖

termos

Padrão de Atenção em Bloco (Block Attention Pattern)

Padrão onde uma cabeça de atenção se concentra em segmentos contíguos da sequência, indicando uma especialização no processamento de frases ou cláusulas locais.

📖

termos

Cabeça de Tradução (Translation Head)

Em modelos multilíngues, cabeça de atenção que aprende a alinhar palavras e frases entre diferentes idiomas, facilitando a transferência de conhecimento linguístico.

📖

termos

Mecanismo de Atenção Multi-cabeças (Multi-Head Attention)

Componente fundamental dos Transformers que executa em paralelo várias cabeças de atenção, concatena suas saídas e as projeta para permitir que o modelo se concentre em diferentes posições e diferentes espaços de representação simultaneamente.

📖

termos

Interpretabilidade das Cabeças (Head Interpretability)

Campo de pesquisa que visa desenvolver métodos para compreender, quantificar e visualizar a função específica de cada cabeça de atenção a fim de desmistificar o funcionamento interno dos modelos Transformer.

Glossário IA

Análise da Cabeça de Atenção (Attention Head Analysis)

Especialização das Cabeças (Head Specialization)

Matriz de Pesos de Atenção (Attention Weight Matrix)

Mapa de Atenção (Attention Map)

Papel Sintático (Syntactic Role)

Papel Posicional (Positional Role)

Cabeça Posicional (Positional Head)

Cabeça de Subpalavra (Subword Head)

Cabeça de Recuperação (Retrieval Head)

Redundância de Cabeças (Head Redundancy)

Poda de Cabeça de Atenção (Attention Head Pruning)

Pontuação de Importância da Cabeça (Head Importance Score)

Análise por Indução de Cabeça (Head Induction Analysis)

Padrão de Atenção Diagonal (Diagonal Attention Pattern)

Padrão de Atenção Vertical (Vertical Attention Pattern)

Padrão de Atenção em Bloco (Block Attention Pattern)

Cabeça de Tradução (Translation Head)

Mecanismo de Atenção Multi-cabeças (Multi-Head Attention)

Interpretabilidade das Cabeças (Head Interpretability)

Nenhum resultado encontrado