Glossário IA
O dicionário completo da Inteligência Artificial
Ataque Adversário Textual
Técnica que consiste em modificar subtilmente um texto de entrada para enganar um modelo de PNL, preservando a semântica para um leitor humano.
Perturbação ao Nível dos Caracteres
Modificação de caracteres individuais no texto (inserção, supressão, substituição) para criar exemplos adversários difíceis de detetar.
Ataque por Substituição Lexical
Substituição de palavras por sinónimos semanticamente próximos, mas que alteram a previsão do modelo de PNL de forma direcionada.
Gatilhos Universais Adversários
Sequências de palavras ou caracteres específicos que, quando inseridas em qualquer texto, provocam sistematicamente um erro de classificação do modelo.
Ataque Caixa Negra
Ataque realizado sem conhecimento dos parâmetros internos do modelo, utilizando apenas as previsões do modelo para construir exemplos adversários.
Ataque Caixa Branca
Ataque que explora o conhecimento completo da arquitetura e dos gradientes do modelo para gerar perturbações ótimas.
Ataque por Transferência
Geração de exemplos adversários num modelo de origem que mantêm a sua eficácia em modelos alvo desconhecidos.
Preservação Semântica
Restrição que garante que as perturbações textuais não modificam o sentido global do texto para um leitor humano.
Ataque por Envenenamento de Dados
Inserção maliciosa de exemplos corrompidos no conjunto de treinamento para degradar o desempenho do modelo durante sua fase de aprendizado.
Perturbação Sintática
Modificação da estrutura gramatical ou sintática de uma frase, preservando seu sentido semântico, para enganar os modelos de PNL.
Mascaramento de Gradiente
Técnica de defesa que modifica o gradiente do modelo para impedir ataques baseados em otimização, sem necessariamente melhorar a robustez real.
Ataque por Consulta
Ataque de caixa preta que otimiza as perturbações consultando iterativamente o modelo e analisando suas respostas.
Robustez Semântica
Capacidade de um modelo de PNL de manter previsões consistentes diante de variações textuais que preservam o sentido, mas modificam a forma.
Espaço de Busca Adversarial
Conjunto de todas as modificações possíveis do texto que podem ser aplicadas para gerar exemplos adversariais válidos.
Pontuação de Perturbação
Métrica quantitativa que avalia a magnitude da modificação aplicada ao texto original para criar um exemplo adversarial.
Ataque Multiobjetivo
Ataque adversarial que busca simultaneamente enganar o modelo e otimizar múltiplas restrições, como legibilidade ou preservação semântica.
Detecção de Ataques Adversariais
Mecanismo defensivo que identifica entradas potencialmente adversariais com base em anomalias estatísticas ou comportamentais nas previsões.