Glossário IA
O dicionário completo da Inteligência Artificial
Máscara Binária
Matriz contendo apenas valores 0 e 1, onde 1 indica as posições a serem mantidas e 0 as a serem mascaradas, geralmente aplicada por multiplicação elementar antes ou depois da atenção softmax.
Máscara Causal Triangular
Estrutura de matriz triangular onde os elementos acima da diagonal são mascarados, criando uma dependência temporal estrita em modelos transformadores para tarefas sequenciais.
Máscara de Comprimento Variável
Máscara dinâmica que se adapta aos comprimentos variáveis das sequências em um batch, otimizando o cálculo ao ignorar posições irrelevantes enquanto preserva o alinhamento do batch.
Máscara de Preenchimento de Chave
Máscara específica aplicada às chaves no mecanismo de atenção para evitar que os tokens de preenchimento (padding) influenciem os scores de atenção, geralmente adicionada antes da operação softmax.
Máscara de Consulta
Máscara aplicada às consultas para restringir quais posições podem realizar consultas de atenção, utilizada em arquiteturas especializadas que exigem controle granular das interações.
Máscara de Valor
Máscara aplicada aos valores após o cálculo da atenção para filtrar contribuições indesejadas, permitindo um controle pós-atenção refinado das representações de saída.
Mascaramento de Pesos de Atenção
Técnica que consiste em aplicar uma máscara diretamente aos pesos de atenção após o softmax para forçar certas contribuições a zero, oferecendo controle explícito sobre os caminhos de informação.
Máscara Softmax
Máscara aplicada adicionando um grande valor negativo (geralmente -inf) aos scores de atenção antes do softmax, garantindo que as posições mascaradas recebam uma probabilidade próxima de zero.
Máscara de Logit
Máscara aplicada ao nível dos logits (pontuações de atenção brutas) para excluir certas interações antes da normalização softmax, preservando a distribuição matemática das pontuações válidas.