Glosario IA
El diccionario completo de la Inteligencia Artificial
Modelado Visión-Lenguaje (VLM)
Subclase de modelos multimodales especializados en la comprensión conjunta de texto e imágenes, capaces de tareas como el subtitulado de imágenes, el razonamiento visual o la generación de imágenes a partir de texto.
Tokenización Visual
Técnica que divide una imagen en una secuencia de parches o tokens discretos, a menudo a través de una red neuronal como un Vision Transformer (ViT), para hacerla compatible con la arquitectura de los transformadores de texto.
Modelo de Alineación
Modelo, a menudo basado en un contrasteador como CLIP, entrenado en enormes corpus de pares (imagen, texto) para aprender a proyectar ambas modalidades en un espacio vectorial compartido donde la similitud del coseno refleja su relevancia mutua.
Generación Condicional Multimodal
Tarea de generación donde la salida (ej: texto, imagen) se produce basándose en una o más entradas de modalidades diferentes, como la descripción de una imagen o la creación de una imagen a partir de un texto.
Razonamiento Encadenado Multimodal
Capacidad de un modelo para utilizar información de múltiples modalidades para construir una secuencia lógica de pensamiento y llegar a una conclusión, por ejemplo, analizando un gráfico y un texto para responder a una pregunta.
Perceptrón Multimodal
Concepto teórico o arquitectura primitiva donde las entradas de diferentes naturalezas se combinan, a menudo por concatenación u operación de fusión, antes de ser procesadas por capas de neuronas totalmente conectadas.
Modelo de Difusión Multimodal
Arquitectura de generación que utiliza un proceso iterativo de adición y eliminación de ruido para crear datos (ej: imágenes) condicionados por otra modalidad (ej: una descripción textual), guiando la eliminación de ruido con la información de condicionamiento.
Codificación Separada vs Codificación Unificada
Dos estrategias de arquitectura para los modelos multimodales: la codificación separada procesa cada modalidad con un codificador dedicado antes de la fusión, mientras que la codificación unificada utiliza un solo transformador para procesar una secuencia de tokens mezclados.
Zero-Shot Learning Multimodal
Capacidad de un modelo para realizar una tarea en una modalidad (ej: clasificar una imagen) sin haber sido entrenado explícitamente para ella, explotando los conocimientos transferidos desde otra modalidad (ej: el texto de las etiquetas de clases).
Modelo Audio-Visión-Texto
Forma avanzada de modelo multimodal que integra tres flujos de datos (sonido, imagen, texto) para tareas complejas como la descripción de videos, donde el modelo debe sincronizar e interpretar la información visual y sonora para producir una narración textual.
Proyección Latente
Capa de red neuronal, a menudo una simple transformación lineal, utilizada para mapear los vectores de embeddings de cada modalidad en un espacio latente común antes de su fusión o comparación.
Modelo Fundamental Multimodal
Modelo de muy gran escala, pre-entrenado sobre cantidades masivas de datos heterogéneos, que sirve de base para la adaptación (fine-tuning) a una multitud de tareas multimodales específicas.
Modularidad en los Modelos Multimodales
Principio de diseño donde los codificadores para cada modalidad son módulos distintos e intercambiables, permitiendo actualizar o reemplazar un componente (ej: el codificador de visión) sin volver a entrenar todo el modelo.
Prompting Multimodal
Técnica de interacción con un modelo donde la entrada (el 'prompt') se compone de varias modalidades, por ejemplo una imagen acompañada de una pregunta textual, para guiar al modelo hacia una respuesta específica.