Autoatenção Multi-Cabeça

📖

termos

Autoatenção Multi-Cabeça

Mecanismo onde o modelo calcula a atenção várias vezes em paralelo com diferentes projeções lineares das consultas, chaves e valores, permitindo capturar dependências variadas em diferentes posições da sequência.

📖

termos

Consulta (Query)

Vetor que representa o elemento atual para o qual se procura calcular a atenção, usado para interagir com as chaves a fim de determinar a importância de cada valor na sequência.

📖

termos

Chave (Key)

Vetor associado a cada elemento da sequência, usado para ser comparado à consulta a fim de calcular a pontuação de atenção e determinar a relevância de cada elemento.

📖

termos

Valor (Value)

Vetor que contém a informação real de cada elemento da sequência, ponderado pelos pesos de atenção para produzir a saída do mecanismo de atenção.

📖

termos

Projeção Linear

Operação de multiplicação matricial aplicada às consultas, chaves e valores em cada cabeça de atenção para projetá-los em subespaços de dimensão inferior, permitindo representações diversificadas.

📖

termos

Dimensão do Modelo (d_model)

Tamanho do espaço de embedding usado para as representações das consultas, chaves e valores após a concatenação das cabeças, parâmetro chave da arquitetura Transformer.

📖

termos

Dimensão da Cabeça (d_k)

Dimensão reduzida para a qual as consultas e as chaves são projetadas em cada cabeça de atenção, calculada como a dimensão do modelo dividida pelo número de cabeças.

📖

termos

Dimensão do Valor (d_v)

Dimensão para a qual os vetores de valor são projetados em cada cabeça de atenção, frequentemente idêntica à dimensão da cabeça (d_k) para simplificar a arquitetura.

📖

termos

Softmax nas Chaves

Aplicação da função softmax aos scores de atenção (produtos escalares query-key) para obter uma distribuição de probabilidade normalizada que serve como pesos de atenção.

📖

termos

Mecanismo de Atenção Paralela

Implementação onde todas as cabeças de atenção são calculadas simultaneamente usando operações matriciais agrupadas, otimizando a eficiência computacional em GPUs.

📖

termos

Subespaço de Representação

Espaço vetorial de dimensão inferior no qual cada cabeça de atenção projeta os dados, permitindo capturar diferentes tipos de relações e padrões nos dados.

📖

termos

Pesos de Atenção (Attention Weights)

Coeficientes normalizados resultantes da função softmax que quantificam a importância de cada valor para a construção da saída do elemento atual.

📖

termos

Dependência de Longo Alcance

Capacidade do mecanismo de autoatenção de modelar diretamente as relações entre tokens distantes na sequência, superando uma limitação das redes recorrentes.

Glossário IA