Multi-Modal Transformers

📖

términos

Transformer Multi-Modal

Arquitectura Transformer extendida capaz de procesar simultáneamente múltiples modalidades de datos (texto, imagen, audio) utilizando mecanismos de atención cruzada para integrar la información inter-modal.

📖

términos

Transformer Visión-Lenguaje

Arquitectura Transformer específicamente diseñada para comprender y generar conjuntamente contenido visual y textual, utilizando codificadores compartidos o separados para cada modalidad.

📖

términos

Mecanismo de Fusión

Estrategia algorítmica que permite combinar eficazmente las representaciones de diferentes modalidades en uno o varios niveles de la red, incluyendo la fusión temprana, tardía o jerárquica.

📖

términos

Incrustación de Modalidad

Vectores de codificación específicos agregados a las incrustaciones de tokens para indicar la modalidad de origen (texto, imagen, audio), permitiendo que el Transformer distinga y procese de manera diferente cada tipo de datos.

📖

términos

CLIP

Modelo Contrastive Language-Image Pre-training entrenado en 400 millones de pares imagen-texto utilizando un objetivo contrastivo para aprender representaciones compartidas entre visión y lenguaje.

📖

términos

VLP

Familia de modelos Vision-Language Pre-training utilizando un codificador Transformer compartido para ambas modalidades con tareas de pre-entrenamiento como el modelado enmascarado y la predicción imagen-texto.

📖

términos

Codificador-Decodificador Unificado

Arquitectura Transformer donde el mismo codificador procesa todas las modalidades de entrada, y un decodificador genera la salida, permitiendo tareas como VQA, subtitulado y recuperación con un solo modelo.

📖

términos

Brecha de Modalidad

Diferencia estructural y semántica inherente entre los espacios de representación de diferentes modalidades, requiriendo mecanismos de alineación específicos en los modelos multi-modales.

📖

términos

Fusión Multi-Modal

Proceso de integración de características provenientes de diferentes modalidades en una representación unificada, explotando las complementariedades inter-modales para mejorar el rendimiento en tareas complejas.

📖

términos

Alineación Inter-Modal

Objetivo de entrenamiento que busca alinear semánticamente las representaciones de diferentes modalidades en un espacio compartido, permitiendo la correspondencia entre conceptos visuales y lingüísticos.

📖

términos

Perceiver IO

Arquitectura Transformer general capaz de procesar cualquier combinación de modalidades utilizando una red de atención cruzada entre los datos de entrada y un conjunto de latentes aprendidos.

📖

términos

Modelo Flamingo

Modelo visión-lenguaje de 80 mil millones de parámetros que utiliza adaptadores pre-entrenados y un attentional gating para combinar eficientemente Vision Transformers y modelos de lenguaje sin reentrenamiento completo.

📖

términos

BLIP

Framework Bootstrapping Language-Image Pre-training que genera pseudo-leyendas para filtrar el ruido y mejorar la calidad de los datos, utilizando un codificador multimodal y un decodificador imagen-texto.

📖

términos

CoCa

Modelo Contrastive Captioners que combina un objetivo contrastivo para el aprendizaje de representaciones y un objetivo generativo para la generación de leyendas en una sola arquitectura Transformer unificada.

📖

términos

BEiT-3

Modelo Bidirectional Encoder representation from Image Transformer v3 que utiliza un multiway Transformer con embeddings específicos de modalidad para procesar imagen, texto e imagen-texto de manera unificada.

📖

términos

LayoutLM

Familia de modelos pre-entrenados en documentos que combina la disposición espacial 2D, el texto y la información visual para la comprensión de documentos estructurados como formularios y facturas.

📖

términos

UniPerceiver

Marco de percepción universal que trata diversas tareas multimodales como un problema unificado de generación de tokens, utilizando un solo modelo Transformer para clasificación, detección y generación.

📖

términos

GIT

Modelo Generative Image-to-text Transformer que trata las imágenes como un idioma extranjero y utiliza una arquitectura simple de codificador-decodificador para la descripción de imágenes y VQA con rendimiento de última generación.

Glosario IA

Transformer Multi-Modal

Transformer Visión-Lenguaje

Mecanismo de Fusión

Incrustación de Modalidad

CLIP

VLP

Codificador-Decodificador Unificado

Brecha de Modalidad

Fusión Multi-Modal

Alineación Inter-Modal

Perceiver IO

Modelo Flamingo

BLIP

CoCa

BEiT-3

LayoutLM

UniPerceiver

GIT

No se encontraron resultados