Glosario IA
El diccionario completo de la Inteligencia Artificial
Robo de Parámetros
Proceso por el cual un atacante recupera los pesos y sesgos de una red neuronal entrenada para recrear una copia funcional del modelo original sin acceso directo a los archivos.
Extracción de Características
Método que consiste en deducir las características de aprendizaje y las representaciones internas de un modelo observando sus comportamientos ante diversas entradas.
Consultas Adversarias
Conjunto de entradas específicamente diseñadas para sondear los límites y comportamientos de un modelo con el objetivo de extraer información sensible sobre su arquitectura o sus parámetros.
Inferencia de Modelo
Proceso de deducción de las propiedades de un modelo objetivo (arquitectura, hiperparámetros, datos de entrenamiento) a partir de sus predicciones y respuestas a las consultas.
Modelado Sombra
Técnica en la que el atacante entrena varios modelos sustitutos para aproximar el comportamiento del modelo objetivo, facilitando posteriormente la extracción de sus características internas.
Inferencia de Pertenencia
Ataque que tiene como objetivo determinar si una muestra de datos específica formaba parte del conjunto de entrenamiento de un modelo, a menudo utilizada como paso preliminar a la extracción.
Ataque Basado en Consultas
Estrategia de ataque que se basa exclusivamente en el envío de consultas a la API de un modelo para deducir progresivamente su estructura y sus parámetros internos.
Ataque de Extracción de Función
Ataque especializada que tiene como objetivo reproducir la función de decisión de un modelo en lugar de sus parámetros exactos, creando un modelo aproximativo con un comportamiento equivalente.
Extracción de parámetros
Técnica avanzada que permite recuperar los valores numéricos exactos de los pesos de una red neuronal a partir de observaciones de sus salidas para diferentes entradas.
Abuso de API
Explotación abusiva de los puntos de acceso de un servicio de IA para realizar un número excesivo de solicitudes con el fin de extraer información sobre el modelo subyacente.
Inversión de modelo
Ataque reconstructivo donde el atacante utiliza las salidas de un modelo para reconstruir aproximadamente los datos de entrenamiento sensibles que sirvieron para su aprendizaje.
Ataque de destilación de conocimientos
Uso malintencionado de las técnicas de destilación de conocimientos donde el modelo objetivo se convierte en el maestro y el atacante crea un modelo estudiante que imita su comportamiento.
Huella digital de modelo
Identificación única de un modelo por sus características conductuales distintivas, permitiendo rastrear su procedencia y facilitar su extracción selectiva.
Extracción de caja blanca
Ataque donde el atacante tiene un acceso parcial o completo a la arquitectura del modelo, facilitando enormemente la extracción precisa de sus parámetros y funcionalidades.
Extracción de caja negra
Extracción de modelo realizada sin conocimiento previo de la arquitectura interna, basándose únicamente en las relaciones entrada-salida observadas a través de la API.
Ataque de oráculo
Método de ataque que trata el modelo objetivo como un oráculo que proporciona respuestas a preguntas, utilizando estas respuestas para reconstruir progresivamente su lógica interna.
Análisis del espacio de salida
Análisis sistemático del espacio de salida de un modelo para identificar patrones y relaciones que permitan deducir su estructura interna y sus parámetros.