Glosario IA
El diccionario completo de la Inteligencia Artificial
Transformador Multimodal
Arquitectura de red neuronal tipo Transformador diseñada para procesar e integrar simultáneamente datos de múltiples modalidades, tales como texto, imagen, audio o video, en un espacio de representación común.
Espacio de Representación Unificado
Espacio vectorial latente único en el cual los embeddings de todas las modalidades (texto, imagen, etc.) son proyectados, permitiendo comparaciones semánticas directas y operaciones de razonamiento multimodal.
Modelo de Visión-Lenguaje (VLM)
Clase específica de transformadores multimodales especializados en la comprensión conjunta del texto y las imágenes, utilizados para tareas como la descripción de imágenes, VQA o búsqueda de imágenes por texto.
ALBEF (Align Before Fuse)
Modelo de visión-lenguaje que utiliza un preentrenamiento contrastivo para alinear las representaciones de texto e imagen antes de fusionarlas mediante capas Transformer de co-atención, mejorando la calidad de la interacción.
Embedding Modality-Agnostic
Representación vectorial aprendida por un modelo multimodal que captura semánticas independientes de la modalidad de origen, permitiendo por ejemplo recuperar una imagen a partir de una consulta textual.
Modelo de Fundación Multimodal
Gran modelo preentrenado en datos masivos y diversos (texto, imagen, audio, etc.), concebido para ser adaptado (fine-tuné) a una amplia gama de tareas posteriores con un mínimo esfuerzo.
Unified-IO
Modelo unificado que procesa una amplia gama de modalidades tanto en entrada (texto, imágenes, audio, etc.) como en salida (generación de texto, dibujo, etc.) utilizando una única arquitectura Transformer y un formato de secuencia unificado.
Patch Embedding Visual
Técnica popularizada por Vision Transformer (ViT) donde una imagen se divide en una cuadrícula de parches no superpuestos, cada uno de los cuales se linealiza y proyecta en un vector de embedding para ser tratado como un token.
Preentrenamiento Multitarea Multimodal
Estrategia de preentrenamiento en la que el modelo se optimiza simultáneamente en varios objetivos derivados de diferentes modalidades (por ejemplo, enmascaramiento de lenguaje, predicción de imagen, alineación audio-texto) para aprender representaciones robustas.