Glosario IA
El diccionario completo de la Inteligencia Artificial
Ataques de caja blanca
Ataques en los que el adversario conoce completamente la arquitectura y los parámetros del modelo objetivo.
Ataques de caja negra
Ataques realizados sin conocimiento interno del modelo, únicamente mediante interacciones con sus entradas/salidas.
Ataques de evasión
Perturbaciones sutiles de los datos de entrada para engañar el modelo durante la inferencia.
Ataques de envenenamiento
Inyección de datos maliciosos en el conjunto de entrenamiento para comprometer el modelo.
Ataques de extracción de modelos
Robo de los parámetros o de la funcionalidad de un modelo propietario mediante consultas repetidas.
Ataques de inferencia de pertenencia
Determinación de si un punto de datos específico formaba parte del conjunto de entrenamiento.
Defensa mediante entrenamiento adversarial
Entrenamiento del modelo con ejemplos adversariales generados para mejorar su robustez
Defensa por Detección de Ataques
Mecanismos para identificar y rechazar las entradas potencialmente adversariales.
Defensa por enmascaramiento de gradientes
Técnicas que enmascaran los gradientes para prevenir los ataques basados en la optimización.
Ataques sobre Visión por Ordenador
Ataques específicamente diseñadas para engañar a los modelos de clasificación de imágenes y de detección de objetos.
Ataques sobre NLP
Perturbaciones textuales sutiles para engañar a los modelos de procesamiento del lenguaje natural.
Ataques por transferencia
Ataques generados en un modelo fuente pero eficaces contra diferentes modelos objetivo.
Defensa por aleatorización
Introducción de estocasticidad en el proceso de inferencia para perturbar los ataques.
Ataques contra modelos de audio
Perturbaciones sonoras imperceptibles diseñadas para engañar a los sistemas de reconocimiento de voz.
Evaluación de Robustez
Métricas y benchmarks para cuantificar la resistencia de los modelos a los ataques adversarios.