Glossário IA
O dicionário completo da Inteligência Artificial
Mapa de Calor de Atenção (Attention Heatmap)
Visualização gráfica da matriz de atenção utilizando um gradiente de cores para destacar as relações mais fortes (geralmente em vermelho) e as mais fracas (geralmente em azul) entre os tokens.
Pontuação de Alinhamento
Valor bruto, antes da aplicação da função softmax, resultante do produto escalar entre a consulta (query) e a chave (key) de um token, medindo sua compatibilidade ou relevância mútua.
Mecanismo de Atenção por Salto (Skip-Connection Attention)
Fenômeno observado onde uma cabeça de atenção aprende a se concentrar principalmente no próprio token atual, agindo como uma conexão de salto e contribuindo para a estabilidade do treinamento.
Análise de Papel das Cabeças (Head Role Analysis)
Estudo sistemático que visa caracterizar a função específica de cada cabeça de atenção, como a captura de relações sintáticas, dependências de longa distância ou padrões posicionais.
Atenção Posicional
Componente da atenção que, sem codificação posicional explícita, é aprendida pelo modelo para se concentrar em posições relativas na sequência, revelando sua compreensão da ordem das palavras.
Visualização de Atenção por Camada (Layer-wise Attention Visualization)
Técnica de interpretabilidade que consiste em examinar os mapas de atenção em cada camada sucessiva de um Transformer para entender como as representações e as relações evoluem em profundidade.
Pesos de Atenção Cruzada (Cross-Attention Weights)
Em modelos codificador-decodificador, pesos de atenção que medem o alinhamento entre os tokens da sequência de saída (decodificador) e os da sequência de entrada (codificador).
Regularização da Atenção (Attention Regularization)
Técnica de treinamento que adiciona uma penalidade à função de perda para encorajar esquemas de atenção específicos, como uma maior diversidade entre as cabeças ou uma maior parcimônia.
BertViz
Ferramenta de visualização de código aberto especificamente projetada para inspecionar os mecanismos de atenção em modelos do tipo BERT, oferecendo visualizações interativas dos pesos por cabeça e por camada.
Gradiente de Atenção
Método de interpretabilidade que calcula o gradiente da saída do modelo em relação aos pesos de atenção para avaliar o impacto de cada conexão de atenção na previsão final.
Atenção Retroativa (Rollback Attention)
Análise que consiste em modificar manualmente os pesos de atenção observados (por exemplo, zerando alguns) para observar o efeito na saída do modelo, testando assim a causalidade das dependências aprendidas.
Agrupamento de Cabeças de Atenção
Abordagem que agrupa as cabeças de atenção com base na similaridade de seus padrões de peso em um corpus, a fim de identificar famílias de cabeças que compartilham funções linguísticas comuns.
Análise de Eficiência das Cabeças (Head Efficiency Analysis)
Avaliação quantitativa da contribuição de cada cabeça de atenção para o desempenho global do modelo, frequentemente medindo a queda de desempenho quando a cabeça é eliminada (poda).
Atenção Máxima (Maximum Attention)
Métrica que, para cada token de origem, identifica o token de destino que recebe o peso de atenção mais alto, fornecendo uma visão simplificada e binária dos alinhamentos mais fortes.