Glosario IA
El diccionario completo de la Inteligencia Artificial
Aprendizaje Automático Adversarial
Campo de estudio de las vulnerabilidades de los modelos de aprendizaje automático frente a ataques maliciosos diseñados para engañar o degradar su rendimiento. Esta disciplina desarrolla simultáneamente técnicas de ataque y estrategias de defensa para fortalecer la seguridad de los sistemas de IA.
Ataques de evasión
Técnicas de ataque donde se aplican perturbaciones imperceptibles a los datos de entrada para inducir a error un modelo ya entrenado. Estos ataques buscan eludir las decisiones del modelo sin modificar sus parámetros internos.
Envenenamiento de datos
Método de ataque que consiste en inyectar datos maliciosos en el conjunto de entrenamiento para comprometer el rendimiento del modelo final. El objetivo es crear puertas traseras o degradar sistemáticamente las predicciones sobre objetivos específicos.
Entrenamiento adversarial
Método de entrenamiento que incorpora activamente ejemplos adversariales en el proceso de aprendizaje para mejorar la robustez del modelo. Este enfoque expone el modelo a los tipos de ataques que podría encontrar en producción.
Suavizado aleatorio
Técnica de defensa certificada que añade ruido gaussiano a las entradas y clasifica por votación mayoritaria sobre múltiples muestras con ruido. Este método proporciona garantías matemáticas sobre la robustez del modelo frente a perturbaciones limitadas.
Ataques por extracción
Estrategia de ataque que busca reproducir o robar un modelo propietario interrogando su API y analizando sus respuestas. Estos ataques explotan las filtraciones de información a través de las predicciones para reconstruir el modelo o sus datos de entrenamiento.
Certificación de robustez
Proceso matemático que garantiza formalmente que un modelo mantiene sus predicciones correctas para todas las perturbaciones dentro de un radio definido. Esta certificación proporciona cotas superiores sobre la vulnerabilidad del modelo frente a los ataques.
Enmascaramiento de gradiente
Técnica de defensa que modifica o enmascara los gradientes del modelo para impedir que los atacantes calculen perturbaciones adversariales efectivas. Aunque puede parecer efectiva, este enfoque es a menudo evadible por ataques más sofisticados.
Ataques adversariales universales
Tipo de ataque donde una sola perturbación puede engañar efectivamente a un modelo sobre una amplia gama de entradas diferentes. Estos ataques son particularmente peligrosos porque no requieren calcular una perturbación específica para cada muestra.
Aprendizaje contrastivo robusto
Enfoque de aprendizaje que maximiza la similitud entre las representaciones de una muestra y sus versiones aumentadas adversarialmente. Este método anima al modelo a desarrollar características invariantes a las perturbaciones maliciosas.
Detección de ejemplos adversariales
Conjunto de técnicas destinadas a identificar automáticamente las entradas potencialmente manipuladas antes de que sean procesadas por el modelo principal. Estos sistemas a menudo utilizan metaclasificadores o análisis estadísticos de las activaciones.
Entrenamiento por verificación
Método de entrenamiento que integra verificadores formales en el bucle de aprendizaje para garantizar propiedades de robustez especificadas. Este enfoque combina la optimización del rendimiento con restricciones de seguridad matemáticamente probadas.
Ataques adversariales físicos
Ataques donde las perturbaciones adversariales se aplican en el mundo real sobre objetos físicos para engañar a los sistemas de visión. Estos ataques deben tener en cuenta las condiciones de iluminación, los ángulos de visión y otras variables ambientales.