QA Multimodal - Glosario IA

📖

términos

Crossmodalidad

Capacidad de un sistema para comprender y relacionar información proveniente de diferentes modalidades, como el texto y las imágenes, para enriquecer la comprensión contextual.

📖

términos

Transformador Visión-Lenguaje (VLT)

Arquitectura Transformer preentrenada en vastos corpus de imágenes y textos emparejados, diseñada para tareas de comprensión y generación multimodales.

📖

términos

Razonamiento Visual

Capacidad de un sistema QA para deducir información no explícita analizando las relaciones espaciales, los atributos de objetos o las escenas complejas en una imagen.

📖

términos

Anclaje Visual

Acción de anclar conceptos lingüísticos (palabras, frases) a entidades o regiones específicas en una imagen o video, creando un enlace semántico tangible.

📖

términos

Alineación Modalidad-a-Modalidad

Proceso de aprendizaje que pone en correspondencia los segmentos de una modalidad (ej: una frase) con los segmentos relevantes de otra (ej: una zona de imagen).

📖

términos

Libro de Códigos Vectorial Cuantificado (VQ)

Técnica utilizada en los modelos multimodales para discretizar las representaciones continuas (ej: de imágenes) en un conjunto finito de tokens discretos, facilitando su procesamiento por modelos de lenguaje.

📖

términos

Perceptrón Multimodal (MLP)

Red neuronal, a menudo un MLP, que toma como entrada las características fusionadas de varias modalidades para realizar una tarea de clasificación o regresión final.

📖

términos

Modelo de Fusión de Dos Flujos

Arquitectura donde cada modalidad es procesada por una red neuronal distinta (un flujo) antes de que sus representaciones se combinen para una toma de decisión común.

📖

términos

Recuperación de Información Multimodal

Tarea que consiste en recuperar documentos (ej: imágenes) relevantes a partir de una consulta en otra modalidad (ej: texto), basándose en su similitud en un espacio de embedding compartido.

📖

términos

Generación de Respuesta Condicional

Proceso en el que un modelo de lenguaje genera una respuesta textual cuyo contenido está condicionado y guiado por la información extraída de una modalidad no textual como una imagen.

📖

términos

Tokenización de Imagen

Proceso de conversión de una imagen en una secuencia de tokens discretos, a menudo a través de un VAE o un VQ-VAE, para hacerla compatible con las arquitecturas de tipo Transformer.

Glosario IA

Crossmodalidad

Transformador Visión-Lenguaje (VLT)

Razonamiento Visual

Anclaje Visual

Alineación Modalidad-a-Modalidad

Libro de Códigos Vectorial Cuantificado (VQ)

Perceptrón Multimodal (MLP)

Modelo de Fusión de Dos Flujos

Recuperación de Información Multimodal

Generación de Respuesta Condicional

Tokenización de Imagen

No se encontraron resultados