Robustez de los Modelos

📖

términos

Aprendizaje Automático Adversarial

Campo de estudio de las vulnerabilidades de los modelos de aprendizaje automático frente a ataques maliciosos diseñados para engañar o degradar su rendimiento. Esta disciplina desarrolla simultáneamente técnicas de ataque y estrategias de defensa para fortalecer la seguridad de los sistemas de IA.

📖

términos

Ataques de evasión

Técnicas de ataque donde se aplican perturbaciones imperceptibles a los datos de entrada para inducir a error un modelo ya entrenado. Estos ataques buscan eludir las decisiones del modelo sin modificar sus parámetros internos.

📖

términos

Envenenamiento de datos

Método de ataque que consiste en inyectar datos maliciosos en el conjunto de entrenamiento para comprometer el rendimiento del modelo final. El objetivo es crear puertas traseras o degradar sistemáticamente las predicciones sobre objetivos específicos.

📖

términos

Entrenamiento adversarial

Método de entrenamiento que incorpora activamente ejemplos adversariales en el proceso de aprendizaje para mejorar la robustez del modelo. Este enfoque expone el modelo a los tipos de ataques que podría encontrar en producción.

📖

términos

Suavizado aleatorio

Técnica de defensa certificada que añade ruido gaussiano a las entradas y clasifica por votación mayoritaria sobre múltiples muestras con ruido. Este método proporciona garantías matemáticas sobre la robustez del modelo frente a perturbaciones limitadas.

📖

términos

Ataques por extracción

Estrategia de ataque que busca reproducir o robar un modelo propietario interrogando su API y analizando sus respuestas. Estos ataques explotan las filtraciones de información a través de las predicciones para reconstruir el modelo o sus datos de entrenamiento.

📖

términos

Certificación de robustez

Proceso matemático que garantiza formalmente que un modelo mantiene sus predicciones correctas para todas las perturbaciones dentro de un radio definido. Esta certificación proporciona cotas superiores sobre la vulnerabilidad del modelo frente a los ataques.

📖

términos

Enmascaramiento de gradiente

Técnica de defensa que modifica o enmascara los gradientes del modelo para impedir que los atacantes calculen perturbaciones adversariales efectivas. Aunque puede parecer efectiva, este enfoque es a menudo evadible por ataques más sofisticados.

📖

términos

Ataques adversariales universales

Tipo de ataque donde una sola perturbación puede engañar efectivamente a un modelo sobre una amplia gama de entradas diferentes. Estos ataques son particularmente peligrosos porque no requieren calcular una perturbación específica para cada muestra.

📖

términos

Aprendizaje contrastivo robusto

Enfoque de aprendizaje que maximiza la similitud entre las representaciones de una muestra y sus versiones aumentadas adversarialmente. Este método anima al modelo a desarrollar características invariantes a las perturbaciones maliciosas.

📖

términos

Detección de ejemplos adversariales

Conjunto de técnicas destinadas a identificar automáticamente las entradas potencialmente manipuladas antes de que sean procesadas por el modelo principal. Estos sistemas a menudo utilizan metaclasificadores o análisis estadísticos de las activaciones.

📖

términos

Entrenamiento por verificación

Método de entrenamiento que integra verificadores formales en el bucle de aprendizaje para garantizar propiedades de robustez especificadas. Este enfoque combina la optimización del rendimiento con restricciones de seguridad matemáticamente probadas.

📖

términos

Ataques adversariales físicos

Ataques donde las perturbaciones adversariales se aplican en el mundo real sobre objetos físicos para engañar a los sistemas de visión. Estos ataques deben tener en cuenta las condiciones de iluminación, los ángulos de visión y otras variables ambientales.

Glosario IA

Aprendizaje Automático Adversarial

Ataques de evasión

Envenenamiento de datos

Entrenamiento adversarial

Suavizado aleatorio

Ataques por extracción

Certificación de robustez

Enmascaramiento de gradiente

Ataques adversariales universales

Aprendizaje contrastivo robusto

Detección de ejemplos adversariales

Entrenamiento por verificación

Ataques adversariales físicos

No se encontraron resultados