Glosario IA
El diccionario completo de la Inteligencia Artificial
Fusión de Atributos Multimodales
Proceso de combinación de características provenientes de diferentes modalidades (texto, imagen, sonido) en una representación unificada para un modelo de aprendizaje, con el objetivo de capturar las interacciones complejas entre las fuentes de datos.
Explicación por Proyección
Método de interpretabilidad que consiste en proyectar la contribución de una modalidad compleja (ej: una imagen) sobre un espacio más simple e interpretable (ej: palabras clave o conceptos) para explicar su influencia en la predicción del modelo.
Mapa de Saliencia Multimodal
Visualización que resalta las regiones o segmentos más influyentes de cada modalidad (píxeles de una imagen, palabras de un texto, segmentos de audio) para una decisión específica del modelo, frecuentemente superponiendo las contribuciones sobre los datos originales.
Alineamiento Semántico Intermodalidades
Técnica que busca establecer correspondencias semánticas entre los elementos de diferentes modalidades (ej: vincular una palabra con una región de imagen o un sonido con una acción), crucial para que el modelo comprenda las relaciones y proporcione explicaciones coherentes.
Descomposición por Modalidad
Enfoque de explicabilidad que aísla y cuantifica la contribución individual de cada modalidad de entrada a la predicción final, permitiendo comprender si una decisión está principalmente guiada por el texto, la imagen o el sonido.
Cuello de Botella de Conceptos Multimodal
Arquitectura de modelo donde la predicción final está condicionada por un conjunto de conceptos interpretables, mismos que se deducen de la fusión de modalidades, ofreciendo una trazabilidad clara de los datos brutos a los conceptos y luego a la decisión.
Regularización de Ortogonalidad
Restricción aplicada durante el entrenamiento para forzar que las representaciones de las diferentes modalidades en el espacio latente compartido sean lo más independientes posible, evitando la redundancia y mejorando la claridad de las explicaciones por modalidad.
Explicación Contrafáctica Multimodal
Generación de ejemplos modificados (cambiando una o varias modalidades) que bastan para invertir la predicción del modelo, ayudando a comprender las condiciones mínimas y las interacciones entre modalidades necesarias para una decisión.
Fusión Tardía para la Interpretabilidad
Estrategia donde cada modalidad es procesada por un modelo especializado hasta una decisión intermedia, fusionándose luego los resultados. Este enfoque facilita la interpretación aislando la lógica de cada modalidad antes de la combinación final.
Modelo Fundamental de VISIÓN-LENGUAJE
Modelo a gran escala pre-entrenado en inmensos corpus de datos textuales y visuales, capaz de comprender y generar contenido a partir de estas dos modalidades, cuya interpretabilidad es un desafío mayor debido a su complejidad intrínseca.
Análisis de Rol Modal
Evaluación sistemática del rol desempeñado por cada modalidad en diferentes tareas o contextos, determinando si una modalidad actúa como soporte contextual, fuente de información primaria o modificador para las demás.
Fundamento Visuo-Lingüístico
Proceso de anclaje de símbolos lingüísticos (palabras, frases) a entidades o conceptos concretos en los datos visuales, fundamental para que las explicaciones de un modelo que relaciona texto e imagen sean semánticamente correctas y comprensibles.
Interpretabilidad por Nodo de Fusión
Método que se centra en el análisis de las neuronas o capas específicas donde ocurre la fusión de información multimodal, para comprender cómo se codifican las interacciones y cómo influyen en la salida del modelo.
Explicación por Gradiente Cruzado
Técnica de interpretabilidad que calcula el gradiente de la salida del modelo con respecto a las características de una modalidad, mientras condiciona este cálculo sobre las características de otra modalidad, revelando así las dependencias intermodales.