Glosario IA
El diccionario completo de la Inteligencia Artificial
Difusión Multi-Modal
Clase de modelos generativos que aprenden una distribución de probabilidad conjunta sobre múltiples modalidades (texto, imagen, audio) mediante un proceso de difusión compartido o coordinado.
Espacio Latente Unificado
Representación vectorial común donde los datos de diferentes modalidades son proyectados para permitir su interacción y transformación mutua dentro de un modelo de difusión.
Condicionamiento Cruzado
Técnica donde el proceso de generación de una modalidad es guiado por la información de otra modalidad, por ejemplo generar una imagen a partir de un texto o un audio a partir de una imagen.
Ruido Estructurado Multi-Modal
Proceso de adición de ruido que preserva las correlaciones inter-modales, degradando conjuntamente las diferentes modalidades para mantener su alineamiento semántico a lo largo del proceso de difusión.
Desruido Coordinado
Etapa de desruido donde las redes neuronales dedicadas a cada modalidad intercambian información para reconstruir de manera coherente los datos a partir de su versión ruidosa compartida.
Codificador Multi-Modal
Red neuronal encargada de proyectar los datos de diferentes modalidades en el espacio latente unificado, capturando sus características esenciales y sus relaciones.
Decodificador Multi-Modal
Red neuronal que reconstruye los datos de cada modalidad a partir de su representación en el espacio latente unificado después del proceso de desruido.
Alineamiento Inter-Modal
Objetivo de aprendizaje que busca minimizar la distancia entre las representaciones latentes de diferentes modalidades que describen el mismo concepto, asegurando su coherencia semántica.
Modelo de Difusión Unificado
Arquitectura de modelo único que procesa y genera simultáneamente múltiples modalidades utilizando un único proceso de difusión y un conjunto de pesos compartidos.
Guía Multi-Modal
Técnica de inferencia que utiliza el gradiente de un modelo de clasificación multi-modal para guiar el proceso de muestreo hacia salidas mejor alineadas con una condición dada.
Difusión de Brazos Múltiples
Arquitectura donde un proceso de difusión central posee 'brazos' especializados para manejar el ruido y la eliminación de ruido específicos de cada modalidad mientras comparte un tronco común.
Pérdida de Coherencia Multi-Modal
Función de pérdida que penaliza las inconsistencias semánticas entre las modalidades generadas, medida por ejemplo mediante la distancia coseno en el espacio latente unificado.
Muestreo Inter-Modal
Proceso de generación donde se muestrea una modalidad mientras se condiciona sobre otra modalidad ya existente o generada simultáneamente.
Red de Predicción de Ruido Compartido
Componente central del modelo de difusión, a menudo una arquitectura U-Net, cuyas capas inferiores son compartidas entre las modalidades y las capas superiores están especializadas.
Incrustación de Tiempo Multi-Modal
Representación del paso de tiempo del proceso de difusión que se inyecta en el modelo, a menudo condicionada por la modalidad para manejar dinámicas de ruido diferentes.
Difusión de Secuencia Multi-Modal
Aplicación de la difusión a datos secuenciales que involucran múltiples modalidades, como la generación de video (imagen + tiempo) o diálogo sincronizado (audio + texto).
Tokenización Multi-Modal
Proceso de discretización de datos de diferentes modalidades en una secuencia de tokens unificados que pueden ser procesados por una arquitectura tipo Transformer en el marco de la difusión.