Interpretabilidade dos Mecanismos de Atenção

📖

termos

Mapa de Calor de Atenção (Attention Heatmap)

Visualização gráfica da matriz de atenção utilizando um gradiente de cores para destacar as relações mais fortes (geralmente em vermelho) e as mais fracas (geralmente em azul) entre os tokens.

📖

termos

Pontuação de Alinhamento

Valor bruto, antes da aplicação da função softmax, resultante do produto escalar entre a consulta (query) e a chave (key) de um token, medindo sua compatibilidade ou relevância mútua.

📖

termos

Mecanismo de Atenção por Salto (Skip-Connection Attention)

Fenômeno observado onde uma cabeça de atenção aprende a se concentrar principalmente no próprio token atual, agindo como uma conexão de salto e contribuindo para a estabilidade do treinamento.

📖

termos

Análise de Papel das Cabeças (Head Role Analysis)

Estudo sistemático que visa caracterizar a função específica de cada cabeça de atenção, como a captura de relações sintáticas, dependências de longa distância ou padrões posicionais.

📖

termos

Atenção Posicional

Componente da atenção que, sem codificação posicional explícita, é aprendida pelo modelo para se concentrar em posições relativas na sequência, revelando sua compreensão da ordem das palavras.

📖

termos

Visualização de Atenção por Camada (Layer-wise Attention Visualization)

Técnica de interpretabilidade que consiste em examinar os mapas de atenção em cada camada sucessiva de um Transformer para entender como as representações e as relações evoluem em profundidade.

📖

termos

Pesos de Atenção Cruzada (Cross-Attention Weights)

Em modelos codificador-decodificador, pesos de atenção que medem o alinhamento entre os tokens da sequência de saída (decodificador) e os da sequência de entrada (codificador).

📖

termos

Regularização da Atenção (Attention Regularization)

Técnica de treinamento que adiciona uma penalidade à função de perda para encorajar esquemas de atenção específicos, como uma maior diversidade entre as cabeças ou uma maior parcimônia.

📖

termos

Ferramenta de visualização de código aberto especificamente projetada para inspecionar os mecanismos de atenção em modelos do tipo BERT, oferecendo visualizações interativas dos pesos por cabeça e por camada.

📖

termos

Gradiente de Atenção

Método de interpretabilidade que calcula o gradiente da saída do modelo em relação aos pesos de atenção para avaliar o impacto de cada conexão de atenção na previsão final.

📖

termos

Atenção Retroativa (Rollback Attention)

Análise que consiste em modificar manualmente os pesos de atenção observados (por exemplo, zerando alguns) para observar o efeito na saída do modelo, testando assim a causalidade das dependências aprendidas.

📖

termos

Agrupamento de Cabeças de Atenção

Abordagem que agrupa as cabeças de atenção com base na similaridade de seus padrões de peso em um corpus, a fim de identificar famílias de cabeças que compartilham funções linguísticas comuns.

📖

termos

Análise de Eficiência das Cabeças (Head Efficiency Analysis)

Avaliação quantitativa da contribuição de cada cabeça de atenção para o desempenho global do modelo, frequentemente medindo a queda de desempenho quando a cabeça é eliminada (poda).

📖

termos

Atenção Máxima (Maximum Attention)

Métrica que, para cada token de origem, identifica o token de destino que recebe o peso de atenção mais alto, fornecendo uma visão simplificada e binária dos alinhamentos mais fortes.

Glossário IA

Mapa de Calor de Atenção (Attention Heatmap)

Pontuação de Alinhamento

Mecanismo de Atenção por Salto (Skip-Connection Attention)

Análise de Papel das Cabeças (Head Role Analysis)

Atenção Posicional

Visualização de Atenção por Camada (Layer-wise Attention Visualization)

Pesos de Atenção Cruzada (Cross-Attention Weights)

Regularização da Atenção (Attention Regularization)

BertViz

Gradiente de Atenção

Atenção Retroativa (Rollback Attention)

Agrupamento de Cabeças de Atenção

Análise de Eficiência das Cabeças (Head Efficiency Analysis)

Atenção Máxima (Maximum Attention)

Nenhum resultado encontrado