Glossário IA
O dicionário completo da Inteligência Artificial
Ataques White-Box
Ataques onde o adversário conhece completamente a arquitetura e os parâmetros do modelo alvo.
Ataques Black-Box
Ataques realizados sem conhecimento interno do modelo, apenas por interações com suas entradas/saídas.
Ataques por Evasão
Perturbações sutis dos dados de entrada para enganar o modelo durante a inferência.
Ataques por Envenenamento
Injeção de dados maliciosos no conjunto de treinamento para comprometer o modelo.
Ataques por Extração de Modelo
Roubo dos parâmetros ou da funcionalidade de um modelo proprietário por meio de requisições repetidas.
Ataques por Inferência de Pertença
Determinação se um ponto de dados específico fazia parte do conjunto de treinamento.
Defesa por Treinamento Adversarial
Treinamento do modelo em exemplos adversariais gerados para melhorar sua robustez.
Defesa por Detecção de Ataques
Mecanismos para identificar e rejeitar entradas potencialmente adversárias.
Defesa por Mascaramento de Gradiente
Técnicas que mascaram os gradientes para prevenir ataques baseados em otimização.
Ataques em Visão Computacional
Ataques especificamente projetados para enganar modelos de classificação de imagens e detecção de objetos.
Ataques em PNL
Perturbações textuais sutis para enganar modelos de processamento de linguagem natural.
Ataques por Transferência
Ataques gerados em um modelo fonte, mas eficazes contra diferentes modelos alvo.
Defesa por Randomização
Introdução de estocasticidade no processo de inferência para perturbar os ataques.
Ataques a Modelos de Áudio
Perturbações sonoras imperceptíveis projetadas para enganar sistemas de reconhecimento de voz.
Avaliação de Robustez
Métricas e benchmarks para quantificar a resistência dos modelos a ataques adversariais.