Glosario IA
El diccionario completo de la Inteligencia Artificial
Ataque de caja negra
Ataque adversarial realizado sin conocimiento de la arquitectura interna, los pesos o los hiperparámetros del modelo objetivo. El atacante solo puede interactuar con las entradas y salidas del modelo.
Ataque por transferencia
Técnica donde un ejemplo adversarial generado contra un modelo fuente se utiliza para engañar a un modelo objetivo diferente. Explota la similitud de las fronteras de decisión entre modelos entrenados con datos similares.
Ataque por consultas
Método de ataque iterativo que envía múltiples consultas al modelo para observar sus respuestas y ajustar progresivamente el ejemplo adversarial. Limitada por el presupuesto de consultas permitidas.
Extracción de modelo
Proceso destinado a replicar o aproximar un modelo propietario interrogándolo sistemáticamente. Permite crear un modelo sustituto para ataques posteriores.
Ataque por decisión inversa
Enfoque que intenta reconstruir las características internas o los datos de entrenamiento a partir de las decisiones del modelo. Explota la información divulgada por las salidas del modelo.
Ataque de frontera
Ataque que se centra en las instancias cercanas a la frontera de decisión del modelo objetivo. Busca encontrar la mínima perturbación necesaria para cambiar la clasificación.
Ataque por sustitución
Estrategia que consiste en entrenar un modelo sustituto localmente para imitar el comportamiento del modelo objetivo. El sustituto se utiliza luego para generar ejemplos adversariales.
Ataque por oráculo
Método que utiliza un oráculo externo para evaluar el éxito del ataque cuando el modelo objetivo no proporciona probabilidades de confianza. Se basa en respuestas binarias o cualitativas.
Ataque por Aproximación de Gradiente
Técnica que estima el gradiente del modelo objetivo mediante diferencias finitas o métodos numéricos. Permite aplicar ataques basados en gradientes sin acceso directo a los gradientes.
Ataque por Evolución Diferencial
Algoritmo de optimización metaheurística que utiliza operadores de mutación y cruce para encontrar ejemplos adversarios. Particularmente efectivo en espacios de búsqueda complejos.
Ataque por Búsqueda en Cuadrícula
Enfoque sistemático que explora el espacio de perturbaciones según una cuadrícula predefinida. Simple pero a menudo ineficaz en alta dimensión debido a la maldición de la dimensionalidad.
Ataque por Optimización Bayesiana
Método de optimización global que construye un modelo de probabilidad de la función objetivo para guiar la búsqueda de ejemplos adversarios. Eficaz con un presupuesto de consultas limitado.
Ataque por Aprendizaje por Refuerzo
Marco donde un agente aprende a generar perturbaciones adversarias mediante la interacción con el modelo objetivo. Formula el problema como un proceso de decisión de Markov.
Ataque ZOO
Algoritmo Zeroth Order Optimization que aplica la optimización de orden cero para encontrar ejemplos adversarios. Estima los gradientes mediante diferencias de coordenadas aleatorias.
Ataque NES
Natural Evolution Strategy aplicada a ataques adversarios de caja negra. Utiliza la estimación de gradiente mediante muestreo de distribuciones gaussianas para la optimización.
Ataque Square Attack
Ataque basada en puntuación (score-based) que utiliza perturbaciones cuadradas aleatorias para evadir las defensas basadas en gradientes. Particularmente efectiva contra modelos aleatorizados.
Ataque HopSkipJump
Algoritmo de ataque por decisión binaria que solo requiere acceso a la clase predicha. Utiliza una búsqueda por saltos progresivos hacia la frontera de decisión.
Ataque Boundary Attack
Método iterativo que camina a lo largo de la frontera de decisión para encontrar ejemplos adversarios con perturbación mínima. Solo requiere acceso a la predicción final.