Transformadores Multimodales

📖

términos

Transformador Multimodal

Arquitectura de red neuronal tipo Transformador diseñada para procesar e integrar simultáneamente datos de múltiples modalidades, tales como texto, imagen, audio o video, en un espacio de representación común.

📖

términos

Espacio de Representación Unificado

Espacio vectorial latente único en el cual los embeddings de todas las modalidades (texto, imagen, etc.) son proyectados, permitiendo comparaciones semánticas directas y operaciones de razonamiento multimodal.

📖

términos

Modelo de Visión-Lenguaje (VLM)

Clase específica de transformadores multimodales especializados en la comprensión conjunta del texto y las imágenes, utilizados para tareas como la descripción de imágenes, VQA o búsqueda de imágenes por texto.

📖

términos

ALBEF (Align Before Fuse)

Modelo de visión-lenguaje que utiliza un preentrenamiento contrastivo para alinear las representaciones de texto e imagen antes de fusionarlas mediante capas Transformer de co-atención, mejorando la calidad de la interacción.

📖

términos

Embedding Modality-Agnostic

Representación vectorial aprendida por un modelo multimodal que captura semánticas independientes de la modalidad de origen, permitiendo por ejemplo recuperar una imagen a partir de una consulta textual.

📖

términos

Modelo de Fundación Multimodal

Gran modelo preentrenado en datos masivos y diversos (texto, imagen, audio, etc.), concebido para ser adaptado (fine-tuné) a una amplia gama de tareas posteriores con un mínimo esfuerzo.

📖

términos

Unified-IO

Modelo unificado que procesa una amplia gama de modalidades tanto en entrada (texto, imágenes, audio, etc.) como en salida (generación de texto, dibujo, etc.) utilizando una única arquitectura Transformer y un formato de secuencia unificado.

📖

términos

Patch Embedding Visual

Técnica popularizada por Vision Transformer (ViT) donde una imagen se divide en una cuadrícula de parches no superpuestos, cada uno de los cuales se linealiza y proyecta en un vector de embedding para ser tratado como un token.

📖

términos

Preentrenamiento Multitarea Multimodal

Estrategia de preentrenamiento en la que el modelo se optimiza simultáneamente en varios objetivos derivados de diferentes modalidades (por ejemplo, enmascaramiento de lenguaje, predicción de imagen, alineación audio-texto) para aprender representaciones robustas.

Glosario IA

Transformador Multimodal

Espacio de Representación Unificado

Modelo de Visión-Lenguaje (VLM)

ALBEF (Align Before Fuse)

Embedding Modality-Agnostic

Modelo de Fundación Multimodal

Unified-IO

Patch Embedding Visual

Preentrenamiento Multitarea Multimodal

No se encontraron resultados