Glossário IA
O dicionário completo da Inteligência Artificial
Aprendizado de Máquina Adversarial
Campo de estudo das vulnerabilidades dos modelos de aprendizado de máquina contra ataques maliciosos projetados para enganar ou degradar seu desempenho. Esta disciplina desenvolve simultaneamente técnicas de ataque e estratégias de defesa para fortalecer a segurança dos sistemas de IA.
Ataques de evasão
Técnicas de ataque onde perturbações imperceptíveis são aplicadas aos dados de entrada para induzir ao erro um modelo já treinado. Esses ataques visam contornar as decisões do modelo sem modificar seus parâmetros internos.
Envenenamento de dados
Método de ataque que consiste em injetar dados maliciosos no conjunto de treinamento para comprometer o desempenho do modelo final. O objetivo é criar backdoors ou degradar sistematicamente as previsões em alvos específicos.
Treinamento adversarial
Método de treinamento que incorpora ativamente exemplos adversariais no processo de aprendizagem para melhorar a robustez do modelo. Esta abordagem expõe o modelo aos tipos de ataques que ele pode encontrar em produção.
Suavização aleatória
Técnica de defesa certificada que adiciona ruído gaussiano às entradas e classifica por votação majoritária em múltiplas amostras ruidosas. Este método fornece garantias matemáticas sobre a robustez do modelo contra perturbações limitadas.
Ataques de extração
Estratégia de ataque que visa replicar ou roubar um modelo proprietário consultando sua API e analisando suas respostas. Esses ataques exploram vazamentos de informações através das previsões para reconstruir o modelo ou seus dados de treinamento.
Certificação de robustez
Processo matemático que garante formalmente que um modelo mantém suas previsões corretas para todas as perturbações dentro de um raio definido. Esta certificação fornece limites superiores sobre a vulnerabilidade do modelo a ataques.
Mascaramento de gradiente
Técnica de defesa que modifica ou mascara os gradientes do modelo para impedir que os atacantes calculem perturbações adversariais eficazes. Embora possa parecer eficaz, esta abordagem é frequentemente contornável por ataques mais sofisticados.
Ataques adversariais universais
Tipo de ataque onde uma única perturbação pode enganar eficazmente um modelo numa ampla gama de entradas diferentes. Estes ataques são particularmente perigosos porque não necessitam de calcular uma perturbação específica para cada amostra.
Aprendizagem contrastiva robusta
Abordagem de aprendizagem que maximiza a semelhança entre as representações de uma amostra e as suas versões aumentadas adversarialmente. Este método incentiva o modelo a desenvolver características invariantes às perturbações maliciosas.
Detecção de exemplos adversariais
Conjunto de técnicas visando identificar automaticamente as entradas potencialmente manipuladas antes de serem processadas pelo modelo principal. Estes sistemas frequentemente utilizam meta-classificadores ou análises estatísticas das ativações.
Treinamento por verificação
Método de treinamento que integra verificadores formais no ciclo de aprendizagem para garantir propriedades de robustez especificadas. Esta abordagem combina a otimização do desempenho com restrições de segurança matematicamente comprovadas.
Ataques adversariais físicos
Ataques onde as perturbações adversariais são aplicadas no mundo real em objetos físicos para enganar os sistemas de visão. Estes ataques devem ter em conta as condições de iluminação, os ângulos de vista e outras variáveis ambientais.