Glosario IA
El diccionario completo de la Inteligencia Artificial
Modelo Multimodal
Arquitectura de inteligencia artificial capaz de procesar e integrar simultáneamente múltiples tipos de datos como texto, imágenes, audio y video en un marco unificado.
Fusión Temprana
Estrategia de integración multimodal donde las diferentes modalidades se combinan a nivel de características brutas antes del procesamiento por el modelo principal.
Fusión Tardía
Enfoque multimodal donde cada modalidad se procesa independientemente hasta las últimas capas del modelo, antes de fusionar las representaciones para la decisión final.
Alineación Cross-modal
Proceso de aprendizaje que busca establecer correspondencias semánticas entre diferentes modalidades en un espacio de representación común.
Codificación Visión-Lenguaje
Mecanismo que transforma simultáneamente entradas visuales y textuales en representaciones vectoriales compatibles para el procesamiento conjunto.
Atención Cross-modal
Mecanismo de atención que permite al modelo ponderar dinámicamente la importancia de la información de una modalidad respecto a otra.
Embeddings Multimodales
Representaciones vectoriales densas que codifican información proveniente de múltiples modalidades en un espacio semántico compartido.
Aprendizaje Zero-shot Multimodal
Capacidad de un modelo multimodal para generalizar a nuevas tareas o combinaciones de modalidades sin ejemplos de entrenamiento específicos.
Tokenización Multimodal
Proceso de conversión de diferentes modalidades (imagen, audio, video) en secuencias de tokens compatibles con la arquitectura Transformer.
Pre-entrenamiento Contrastivo Multimodal
Método de auto-supervisión que maximiza la similitud entre pares multimodales positivos mientras minimiza la de los pares negativos.
Proyección Espacio Latente Común
Transformación lineal o no lineal que alinea los espacios de representación de diferentes modalidades en un espacio vectorial unificado.
Arquitectura Híbrida Codificador-Decodificador
Estructura que combina codificadores especializados por modalidad con un decodificador unificado para la generación de salidas multimodales.
Fine-tuning Multimodal
Proceso de adaptación de un modelo pre-entrenado multimodal a tareas específicas preservando sus capacidades de procesamiento intermodal.
Ingeniería de Prompts Multimodal
Técnica de optimización de entradas que combina texto y otras modalidades para guiar eficazmente los modelos multimodales hacia salidas deseadas.
Razonamiento Cadena de Pensamiento Multimodal
Capacidad de un modelo para generar pasos de razonamiento explícitos integrando evidencias provenientes de múltiples modalidades.
Generación Condicionada Multimodal
Proceso de creación de contenido en una modalidad objetivo basado en condiciones o restricciones proporcionadas en otras modalidades.
Fusión Intermedia
Estrategia de integración multimodal donde las modalidades se fusionan en múltiples niveles intermedios de la red neuronal.
Transformadores Multimodales
Extensión de la arquitectura Transformer capaz de procesar simultáneamente secuencias provenientes de diferentes modalidades con mecanismos de atención adaptados.