Difusión Multimodal - Glosario IA

📖

términos

Difusión Multi-Modal

Clase de modelos generativos que aprenden una distribución de probabilidad conjunta sobre múltiples modalidades (texto, imagen, audio) mediante un proceso de difusión compartido o coordinado.

📖

términos

Espacio Latente Unificado

Representación vectorial común donde los datos de diferentes modalidades son proyectados para permitir su interacción y transformación mutua dentro de un modelo de difusión.

📖

términos

Condicionamiento Cruzado

Técnica donde el proceso de generación de una modalidad es guiado por la información de otra modalidad, por ejemplo generar una imagen a partir de un texto o un audio a partir de una imagen.

📖

términos

Ruido Estructurado Multi-Modal

Proceso de adición de ruido que preserva las correlaciones inter-modales, degradando conjuntamente las diferentes modalidades para mantener su alineamiento semántico a lo largo del proceso de difusión.

📖

términos

Desruido Coordinado

Etapa de desruido donde las redes neuronales dedicadas a cada modalidad intercambian información para reconstruir de manera coherente los datos a partir de su versión ruidosa compartida.

📖

términos

Codificador Multi-Modal

Red neuronal encargada de proyectar los datos de diferentes modalidades en el espacio latente unificado, capturando sus características esenciales y sus relaciones.

📖

términos

Decodificador Multi-Modal

Red neuronal que reconstruye los datos de cada modalidad a partir de su representación en el espacio latente unificado después del proceso de desruido.

📖

términos

Alineamiento Inter-Modal

Objetivo de aprendizaje que busca minimizar la distancia entre las representaciones latentes de diferentes modalidades que describen el mismo concepto, asegurando su coherencia semántica.

📖

términos

Modelo de Difusión Unificado

Arquitectura de modelo único que procesa y genera simultáneamente múltiples modalidades utilizando un único proceso de difusión y un conjunto de pesos compartidos.

📖

términos

Guía Multi-Modal

Técnica de inferencia que utiliza el gradiente de un modelo de clasificación multi-modal para guiar el proceso de muestreo hacia salidas mejor alineadas con una condición dada.

📖

términos

Difusión de Brazos Múltiples

Arquitectura donde un proceso de difusión central posee 'brazos' especializados para manejar el ruido y la eliminación de ruido específicos de cada modalidad mientras comparte un tronco común.

📖

términos

Pérdida de Coherencia Multi-Modal

Función de pérdida que penaliza las inconsistencias semánticas entre las modalidades generadas, medida por ejemplo mediante la distancia coseno en el espacio latente unificado.

📖

términos

Muestreo Inter-Modal

Proceso de generación donde se muestrea una modalidad mientras se condiciona sobre otra modalidad ya existente o generada simultáneamente.

📖

términos

Red de Predicción de Ruido Compartido

Componente central del modelo de difusión, a menudo una arquitectura U-Net, cuyas capas inferiores son compartidas entre las modalidades y las capas superiores están especializadas.

📖

términos

Incrustación de Tiempo Multi-Modal

Representación del paso de tiempo del proceso de difusión que se inyecta en el modelo, a menudo condicionada por la modalidad para manejar dinámicas de ruido diferentes.

📖

términos

Difusión de Secuencia Multi-Modal

Aplicación de la difusión a datos secuenciales que involucran múltiples modalidades, como la generación de video (imagen + tiempo) o diálogo sincronizado (audio + texto).

📖

términos

Tokenización Multi-Modal

Proceso de discretización de datos de diferentes modalidades en una secuencia de tokens unificados que pueden ser procesados por una arquitectura tipo Transformer en el marco de la difusión.

Glosario IA