Glosario IA
El diccionario completo de la Inteligencia Artificial
Crossmodalidad
Capacidad de un sistema para comprender y relacionar información proveniente de diferentes modalidades, como el texto y las imágenes, para enriquecer la comprensión contextual.
Transformador Visión-Lenguaje (VLT)
Arquitectura Transformer preentrenada en vastos corpus de imágenes y textos emparejados, diseñada para tareas de comprensión y generación multimodales.
Razonamiento Visual
Capacidad de un sistema QA para deducir información no explícita analizando las relaciones espaciales, los atributos de objetos o las escenas complejas en una imagen.
Anclaje Visual
Acción de anclar conceptos lingüísticos (palabras, frases) a entidades o regiones específicas en una imagen o video, creando un enlace semántico tangible.
Alineación Modalidad-a-Modalidad
Proceso de aprendizaje que pone en correspondencia los segmentos de una modalidad (ej: una frase) con los segmentos relevantes de otra (ej: una zona de imagen).
Libro de Códigos Vectorial Cuantificado (VQ)
Técnica utilizada en los modelos multimodales para discretizar las representaciones continuas (ej: de imágenes) en un conjunto finito de tokens discretos, facilitando su procesamiento por modelos de lenguaje.
Perceptrón Multimodal (MLP)
Red neuronal, a menudo un MLP, que toma como entrada las características fusionadas de varias modalidades para realizar una tarea de clasificación o regresión final.
Modelo de Fusión de Dos Flujos
Arquitectura donde cada modalidad es procesada por una red neuronal distinta (un flujo) antes de que sus representaciones se combinen para una toma de decisión común.
Recuperación de Información Multimodal
Tarea que consiste en recuperar documentos (ej: imágenes) relevantes a partir de una consulta en otra modalidad (ej: texto), basándose en su similitud en un espacio de embedding compartido.
Generación de Respuesta Condicional
Proceso en el que un modelo de lenguaje genera una respuesta textual cuyo contenido está condicionado y guiado por la información extraída de una modalidad no textual como una imagen.
Tokenización de Imagen
Proceso de conversión de una imagen en una secuencia de tokens discretos, a menudo a través de un VAE o un VQ-VAE, para hacerla compatible con las arquitecturas de tipo Transformer.