Glossário IA
O dicionário completo da Inteligência Artificial
Autoatenção Multi-Cabeça
Mecanismo onde o modelo calcula a atenção várias vezes em paralelo com diferentes projeções lineares das consultas, chaves e valores, permitindo capturar dependências variadas em diferentes posições da sequência.
Consulta (Query)
Vetor que representa o elemento atual para o qual se procura calcular a atenção, usado para interagir com as chaves a fim de determinar a importância de cada valor na sequência.
Chave (Key)
Vetor associado a cada elemento da sequência, usado para ser comparado à consulta a fim de calcular a pontuação de atenção e determinar a relevância de cada elemento.
Valor (Value)
Vetor que contém a informação real de cada elemento da sequência, ponderado pelos pesos de atenção para produzir a saída do mecanismo de atenção.
Projeção Linear
Operação de multiplicação matricial aplicada às consultas, chaves e valores em cada cabeça de atenção para projetá-los em subespaços de dimensão inferior, permitindo representações diversificadas.
Dimensão do Modelo (d_model)
Tamanho do espaço de embedding usado para as representações das consultas, chaves e valores após a concatenação das cabeças, parâmetro chave da arquitetura Transformer.
Dimensão da Cabeça (d_k)
Dimensão reduzida para a qual as consultas e as chaves são projetadas em cada cabeça de atenção, calculada como a dimensão do modelo dividida pelo número de cabeças.
Dimensão do Valor (d_v)
Dimensão para a qual os vetores de valor são projetados em cada cabeça de atenção, frequentemente idêntica à dimensão da cabeça (d_k) para simplificar a arquitetura.
Softmax nas Chaves
Aplicação da função softmax aos scores de atenção (produtos escalares query-key) para obter uma distribuição de probabilidade normalizada que serve como pesos de atenção.
Mecanismo de Atenção Paralela
Implementação onde todas as cabeças de atenção são calculadas simultaneamente usando operações matriciais agrupadas, otimizando a eficiência computacional em GPUs.
Subespaço de Representação
Espaço vetorial de dimensão inferior no qual cada cabeça de atenção projeta os dados, permitindo capturar diferentes tipos de relações e padrões nos dados.
Pesos de Atenção (Attention Weights)
Coeficientes normalizados resultantes da função softmax que quantificam a importância de cada valor para a construção da saída do elemento atual.
Dependência de Longo Alcance
Capacidade do mecanismo de autoatenção de modelar diretamente as relações entre tokens distantes na sequência, superando uma limitação das redes recorrentes.