Glossário IA
O dicionário completo da Inteligência Artificial
Ataque de Caixa Preta
Ataque adversarial realizado sem conhecimento da arquitetura interna, dos pesos ou dos hiperparâmetros do modelo alvo. O atacante só pode interagir com as entradas e saídas do modelo.
Ataque por Transferência
Técnica onde um exemplo adversarial gerado contra um modelo fonte é usado para enganar um modelo alvo diferente. Explora a similaridade das fronteiras de decisão entre modelos treinados em dados semelhantes.
Ataque por Consultas
Método de ataque iterativo que envia múltiplas consultas ao modelo para observar suas respostas e ajustar progressivamente o exemplo adversarial. Limitado pelo orçamento de consultas permitidas.
Extração de Modelo
Processo que visa replicar ou aproximar um modelo proprietário, interrogando-o sistematicamente. Permite criar um modelo substituto para ataques subsequentes.
Ataque por Decisão Inversa
Abordagem que tenta reconstruir as características internas ou os dados de treinamento a partir das decisões do modelo. Explora as informações divulgadas pelas saídas do modelo.
Ataque por Fronteira de Decisão
Ataque que se concentra em instâncias próximas da fronteira de decisão do modelo alvo. Procura encontrar o mínimo de perturbações necessárias para alterar a classificação.
Ataque por Substituição
Estratégia que consiste em treinar um modelo substituto localmente para imitar o comportamento do modelo alvo. O substituto é então usado para gerar exemplos adversariais.
Ataque por Oráculo
Método que utiliza um oráculo externo para avaliar o sucesso do ataque quando o modelo alvo não fornece probabilidades de confiança. Baseia-se em respostas binárias ou qualitativas.
Ataque por Aproximação de Gradiente
Técnica que estima o gradiente do modelo alvo por diferenças finitas ou métodos numéricos. Permite aplicar ataques baseados em gradiente sem acesso direto aos gradientes.
Ataque por Evolução Diferencial
Algoritmo de otimização meta-heurística que utiliza operadores de mutação e cruzamento para encontrar exemplos adversariais. Particularmente eficaz em espaços de busca complexos.
Ataque por Busca em Grade
Abordagem sistemática que explora o espaço de perturbações de acordo com uma grade predefinida. Simples, mas muitas vezes ineficaz em alta dimensão devido à maldição da dimensionalidade.
Ataque por Otimização Bayesiana
Método de otimização global que constrói um modelo de probabilidade da função objetivo para guiar a busca por exemplos adversariais. Eficaz com um orçamento limitado de consultas.
Ataque por Aprendizagem por Reforço
Estrutura onde um agente aprende a gerar perturbações adversariais através da interação com o modelo alvo. Formula o problema como um processo de decisão de Markov.
Ataque por ZOO
Algoritmo de Otimização de Ordem Zero (Zeroth Order Optimization) que aplica a otimização de ordem zero para encontrar exemplos adversariais. Estima os gradientes por diferenças de coordenadas aleatórias.
Ataque por NES
Estratégia de Evolução Natural (Natural Evolution Strategy) aplicada a ataques adversariais black-box. Utiliza a estimativa de gradiente por amostragem de distribuições gaussianas para a otimização.
Ataque por Square Attack
Ataque baseado em pontuação que utiliza perturbações quadradas aleatórias para escapar às defesas baseadas em gradiente. Particularmente eficaz contra modelos randomizados.
Ataque por HopSkipJump
Algoritmo de ataque por decisão binária que requer apenas acesso à classe predita. Utiliza uma busca por saltos progressivos em direção à fronteira de decisão.
Ataque por Boundary Attack
Método iterativo que caminha ao longo da fronteira de decisão para encontrar exemplos adversariais com perturbação mínima. Requer apenas acesso à predição final.