Glosario IA
El diccionario completo de la Inteligencia Artificial
Espacio de Representación Común
Espacio vectorial compartido donde las características de diferentes modalidades se proyectan para permitir comparaciones directas y operaciones multimodales.
Codificación Multimodal
Arquitectura neuronal que transforma simultáneamente múltiples modalidades de entrada en representaciones vectoriales compatibles para tareas de aprendizaje conjunto.
Fusión de Modalidades
Técnica que combina información proveniente de diferentes fuentes modales para crear una representación unificada y enriquecida que captura las complementariedades.
Proyección Contrastiva
Método de aprendizaje que maximiza la similitud entre pares positivos (texto-imagen correspondientes) mientras minimiza la de los pares negativos en un espacio latente.
Aprendizaje Conjunto Multimodal
Paradigma de entrenamiento simultáneo de múltiples codificadores modales con objetivos compartidos para desarrollar representaciones coherentes entre modalidades.
Arquitectura Transformer Multimodal
Modelo basado en mecanismos de atención cruzada que procesa e integra secuencias de diferentes modalidades para capturar sus interacciones profundas.
Pérdida de Triplete Multimodal
Función de costo que optimiza las distancias relativas entre anclas, positivas y negativas de diferentes modalidades para mejorar la alineación semántica.
Alineamiento Semántico
Correspondencia conceptual entre elementos de diferentes modalidades basada en su significado más que en sus características superficiales.
Coaprendizaje Multimodal
Estrategia donde cada modalidad aprende a mejorar sus representaciones utilizando la información de otras modalidades como supervisión mutua.
Atención Cruzada
Mecanismo que permite a una modalidad centrarse selectivamente en las partes relevantes de otra modalidad para establecer correspondencias finas.
Correspondencia Multiescala
Alineación entre modalidades que opera en diferentes niveles de granularidad, desde las características locales hasta las representaciones globales.
Sincronización Temporal Multimodal
Alineación temporal precisa entre flujos de datos secuenciales de diferentes modalidades como el audio y el video o el texto y las acciones.
Transferencia Cross-Modal Zero-Shot
Capacidad de generalizar a nuevos pares modales o clases sin ejemplos de entrenamiento directos, gracias al alineamiento aprendido en el espacio común.
Alineamiento Métrico Multimodal
Optimización de una métrica de distancia en el espacio latente para garantizar que las representaciones de modalidades similares estén cerca y las disímiles lejos.
Codificación Multimodal Jerárquica
Arquitectura organizada en niveles que procesa progresivamente la información multimodal de los detalles locales hacia la comprensión global.
Fusión Tardía vs Temprana
Dos estrategias de integración modal: la fusión temprana combina los datos brutos, mientras que la tardía fusiona las representaciones ya aprendidas por separado.
Correspondencia global-local
Alineación simultánea entre representaciones globales (imagen completa-texto completo) y correspondencias locales (regiones-palabras) para un mapeo preciso.