Glosario IA
El diccionario completo de la Inteligencia Artificial
Modality Alignment
Proceso de entrenamiento destinado a alinear los espacios de representación de diferentes modalidades en un espacio vectorial común para facilitar las transferencias cross-modales.
Perceiver
Arquitectura Transformer generalista capaz de procesar datos multimodales arbitrarios utilizando un mecanismo de atención cross-attention entre entradas y un bottleneck latente.
Unified Multimodal Pre-training
Enfoque que pre-entrena un solo modelo en múltiples tareas y modalidades simultáneamente para obtener representaciones más generales y transferibles.
Image Captioning Transformer
Arquitectura encoder-decoder Transformer que genera automáticamente descripciones textuales descriptivas y coherentes para imágenes de entrada.
Audio-Visual Transformer
Modelo Transformer que procesa simultáneamente los flujos de audio y video para tareas como el reconocimiento audiovisual o la generación sincronizada.
Video Transformer
Variante de Vision Transformer adaptada al procesamiento secuencial de frames de video incorporando información temporal mediante la atención espacio-temporal.
Transformer-based Multimodal Fusion
Técnica que utiliza los mecanismos de atención de los Transformers para fusionar inteligentemente las características de múltiples modalidades a nivel semántico.