Modelos Multimodales - Glosario IA

📖

términos

Modelado Visión-Lenguaje (VLM)

Subclase de modelos multimodales especializados en la comprensión conjunta de texto e imágenes, capaces de tareas como el subtitulado de imágenes, el razonamiento visual o la generación de imágenes a partir de texto.

📖

términos

Tokenización Visual

Técnica que divide una imagen en una secuencia de parches o tokens discretos, a menudo a través de una red neuronal como un Vision Transformer (ViT), para hacerla compatible con la arquitectura de los transformadores de texto.

📖

términos

Modelo de Alineación

Modelo, a menudo basado en un contrasteador como CLIP, entrenado en enormes corpus de pares (imagen, texto) para aprender a proyectar ambas modalidades en un espacio vectorial compartido donde la similitud del coseno refleja su relevancia mutua.

📖

términos

Generación Condicional Multimodal

Tarea de generación donde la salida (ej: texto, imagen) se produce basándose en una o más entradas de modalidades diferentes, como la descripción de una imagen o la creación de una imagen a partir de un texto.

📖

términos

Razonamiento Encadenado Multimodal

Capacidad de un modelo para utilizar información de múltiples modalidades para construir una secuencia lógica de pensamiento y llegar a una conclusión, por ejemplo, analizando un gráfico y un texto para responder a una pregunta.

📖

términos

Perceptrón Multimodal

Concepto teórico o arquitectura primitiva donde las entradas de diferentes naturalezas se combinan, a menudo por concatenación u operación de fusión, antes de ser procesadas por capas de neuronas totalmente conectadas.

📖

términos

Modelo de Difusión Multimodal

Arquitectura de generación que utiliza un proceso iterativo de adición y eliminación de ruido para crear datos (ej: imágenes) condicionados por otra modalidad (ej: una descripción textual), guiando la eliminación de ruido con la información de condicionamiento.

📖

términos

Codificación Separada vs Codificación Unificada

Dos estrategias de arquitectura para los modelos multimodales: la codificación separada procesa cada modalidad con un codificador dedicado antes de la fusión, mientras que la codificación unificada utiliza un solo transformador para procesar una secuencia de tokens mezclados.

📖

términos

Zero-Shot Learning Multimodal

Capacidad de un modelo para realizar una tarea en una modalidad (ej: clasificar una imagen) sin haber sido entrenado explícitamente para ella, explotando los conocimientos transferidos desde otra modalidad (ej: el texto de las etiquetas de clases).

📖

términos

Modelo Audio-Visión-Texto

Forma avanzada de modelo multimodal que integra tres flujos de datos (sonido, imagen, texto) para tareas complejas como la descripción de videos, donde el modelo debe sincronizar e interpretar la información visual y sonora para producir una narración textual.

📖

términos

Proyección Latente

Capa de red neuronal, a menudo una simple transformación lineal, utilizada para mapear los vectores de embeddings de cada modalidad en un espacio latente común antes de su fusión o comparación.

📖

términos

Modelo Fundamental Multimodal

Modelo de muy gran escala, pre-entrenado sobre cantidades masivas de datos heterogéneos, que sirve de base para la adaptación (fine-tuning) a una multitud de tareas multimodales específicas.

📖

términos

Modularidad en los Modelos Multimodales

Principio de diseño donde los codificadores para cada modalidad son módulos distintos e intercambiables, permitiendo actualizar o reemplazar un componente (ej: el codificador de visión) sin volver a entrenar todo el modelo.

📖

términos

Prompting Multimodal

Técnica de interacción con un modelo donde la entrada (el 'prompt') se compone de varias modalidades, por ejemplo una imagen acompañada de una pregunta textual, para guiar al modelo hacia una respuesta específica.

Glosario IA

Modelado Visión-Lenguaje (VLM)

Tokenización Visual

Modelo de Alineación

Generación Condicional Multimodal

Razonamiento Encadenado Multimodal

Perceptrón Multimodal

Modelo de Difusión Multimodal

Codificación Separada vs Codificación Unificada

Zero-Shot Learning Multimodal

Modelo Audio-Visión-Texto

Proyección Latente

Modelo Fundamental Multimodal

Modularidad en los Modelos Multimodales

Prompting Multimodal

No se encontraron resultados