Robustez dos Modelos - Glossário IA

📖

termos

Aprendizado de Máquina Adversarial

Campo de estudo das vulnerabilidades dos modelos de aprendizado de máquina contra ataques maliciosos projetados para enganar ou degradar seu desempenho. Esta disciplina desenvolve simultaneamente técnicas de ataque e estratégias de defesa para fortalecer a segurança dos sistemas de IA.

📖

termos

Ataques de evasão

Técnicas de ataque onde perturbações imperceptíveis são aplicadas aos dados de entrada para induzir ao erro um modelo já treinado. Esses ataques visam contornar as decisões do modelo sem modificar seus parâmetros internos.

📖

termos

Envenenamento de dados

Método de ataque que consiste em injetar dados maliciosos no conjunto de treinamento para comprometer o desempenho do modelo final. O objetivo é criar backdoors ou degradar sistematicamente as previsões em alvos específicos.

📖

termos

Treinamento adversarial

Método de treinamento que incorpora ativamente exemplos adversariais no processo de aprendizagem para melhorar a robustez do modelo. Esta abordagem expõe o modelo aos tipos de ataques que ele pode encontrar em produção.

📖

termos

Suavização aleatória

Técnica de defesa certificada que adiciona ruído gaussiano às entradas e classifica por votação majoritária em múltiplas amostras ruidosas. Este método fornece garantias matemáticas sobre a robustez do modelo contra perturbações limitadas.

📖

termos

Ataques de extração

Estratégia de ataque que visa replicar ou roubar um modelo proprietário consultando sua API e analisando suas respostas. Esses ataques exploram vazamentos de informações através das previsões para reconstruir o modelo ou seus dados de treinamento.

📖

termos

Certificação de robustez

Processo matemático que garante formalmente que um modelo mantém suas previsões corretas para todas as perturbações dentro de um raio definido. Esta certificação fornece limites superiores sobre a vulnerabilidade do modelo a ataques.

📖

termos

Mascaramento de gradiente

Técnica de defesa que modifica ou mascara os gradientes do modelo para impedir que os atacantes calculem perturbações adversariais eficazes. Embora possa parecer eficaz, esta abordagem é frequentemente contornável por ataques mais sofisticados.

📖

termos

Ataques adversariais universais

Tipo de ataque onde uma única perturbação pode enganar eficazmente um modelo numa ampla gama de entradas diferentes. Estes ataques são particularmente perigosos porque não necessitam de calcular uma perturbação específica para cada amostra.

📖

termos

Aprendizagem contrastiva robusta

Abordagem de aprendizagem que maximiza a semelhança entre as representações de uma amostra e as suas versões aumentadas adversarialmente. Este método incentiva o modelo a desenvolver características invariantes às perturbações maliciosas.

📖

termos

Detecção de exemplos adversariais

Conjunto de técnicas visando identificar automaticamente as entradas potencialmente manipuladas antes de serem processadas pelo modelo principal. Estes sistemas frequentemente utilizam meta-classificadores ou análises estatísticas das ativações.

📖

termos

Treinamento por verificação

Método de treinamento que integra verificadores formais no ciclo de aprendizagem para garantir propriedades de robustez especificadas. Esta abordagem combina a otimização do desempenho com restrições de segurança matematicamente comprovadas.

📖

termos

Ataques adversariais físicos

Ataques onde as perturbações adversariais são aplicadas no mundo real em objetos físicos para enganar os sistemas de visão. Estes ataques devem ter em conta as condições de iluminação, os ângulos de vista e outras variáveis ambientais.

Glossário IA

Aprendizado de Máquina Adversarial

Ataques de evasão

Envenenamento de dados

Treinamento adversarial

Suavização aleatória

Ataques de extração

Certificação de robustez

Mascaramento de gradiente

Ataques adversariais universais

Aprendizagem contrastiva robusta

Detecção de exemplos adversariais

Treinamento por verificação

Ataques adversariais físicos

Nenhum resultado encontrado