Glosario IA
El diccionario completo de la Inteligencia Artificial
Transformer Multi-Modal
Arquitectura Transformer extendida capaz de procesar simultáneamente múltiples modalidades de datos (texto, imagen, audio) utilizando mecanismos de atención cruzada para integrar la información inter-modal.
Transformer Visión-Lenguaje
Arquitectura Transformer específicamente diseñada para comprender y generar conjuntamente contenido visual y textual, utilizando codificadores compartidos o separados para cada modalidad.
Mecanismo de Fusión
Estrategia algorítmica que permite combinar eficazmente las representaciones de diferentes modalidades en uno o varios niveles de la red, incluyendo la fusión temprana, tardía o jerárquica.
Incrustación de Modalidad
Vectores de codificación específicos agregados a las incrustaciones de tokens para indicar la modalidad de origen (texto, imagen, audio), permitiendo que el Transformer distinga y procese de manera diferente cada tipo de datos.
CLIP
Modelo Contrastive Language-Image Pre-training entrenado en 400 millones de pares imagen-texto utilizando un objetivo contrastivo para aprender representaciones compartidas entre visión y lenguaje.
VLP
Familia de modelos Vision-Language Pre-training utilizando un codificador Transformer compartido para ambas modalidades con tareas de pre-entrenamiento como el modelado enmascarado y la predicción imagen-texto.
Codificador-Decodificador Unificado
Arquitectura Transformer donde el mismo codificador procesa todas las modalidades de entrada, y un decodificador genera la salida, permitiendo tareas como VQA, subtitulado y recuperación con un solo modelo.
Brecha de Modalidad
Diferencia estructural y semántica inherente entre los espacios de representación de diferentes modalidades, requiriendo mecanismos de alineación específicos en los modelos multi-modales.
Fusión Multi-Modal
Proceso de integración de características provenientes de diferentes modalidades en una representación unificada, explotando las complementariedades inter-modales para mejorar el rendimiento en tareas complejas.
Alineación Inter-Modal
Objetivo de entrenamiento que busca alinear semánticamente las representaciones de diferentes modalidades en un espacio compartido, permitiendo la correspondencia entre conceptos visuales y lingüísticos.
Perceiver IO
Arquitectura Transformer general capaz de procesar cualquier combinación de modalidades utilizando una red de atención cruzada entre los datos de entrada y un conjunto de latentes aprendidos.
Modelo Flamingo
Modelo visión-lenguaje de 80 mil millones de parámetros que utiliza adaptadores pre-entrenados y un attentional gating para combinar eficientemente Vision Transformers y modelos de lenguaje sin reentrenamiento completo.
BLIP
Framework Bootstrapping Language-Image Pre-training que genera pseudo-leyendas para filtrar el ruido y mejorar la calidad de los datos, utilizando un codificador multimodal y un decodificador imagen-texto.
CoCa
Modelo Contrastive Captioners que combina un objetivo contrastivo para el aprendizaje de representaciones y un objetivo generativo para la generación de leyendas en una sola arquitectura Transformer unificada.
BEiT-3
Modelo Bidirectional Encoder representation from Image Transformer v3 que utiliza un multiway Transformer con embeddings específicos de modalidad para procesar imagen, texto e imagen-texto de manera unificada.
LayoutLM
Familia de modelos pre-entrenados en documentos que combina la disposición espacial 2D, el texto y la información visual para la comprensión de documentos estructurados como formularios y facturas.
UniPerceiver
Marco de percepción universal que trata diversas tareas multimodales como un problema unificado de generación de tokens, utilizando un solo modelo Transformer para clasificación, detección y generación.
GIT
Modelo Generative Image-to-text Transformer que trata las imágenes como un idioma extranjero y utiliza una arquitectura simple de codificador-decodificador para la descripción de imágenes y VQA con rendimiento de última generación.