AI-ordlista
Den kompletta ordlistan över AI
Modality Alignment
Processus d'entraînement visant à aligner les espaces de représentation de différentes modalités dans un espace vectoriel commun pour faciliter les transferts cross-modaux.
Perceiver
Architecture Transformer généraliste capable de traiter des données arbitraires multimodales en utilisant un mécanisme d'attention cross-attention entre entrées et bottleneck latent.
Unified Multimodal Pre-training
Approche pré-entraînant un seul modèle sur multiples tâches et modalités simultanément pour obtenir des représentations plus générales et transférables.
Image Captioning Transformer
Architecture encoder-décodeur Transformer générant automatiquement des descriptions textuelles descriptives et cohérentes pour des images d'entrée.
Audio-Visual Transformer
Modèle Transformer traitant simultanément les flux audio et vidéo pour des tâches comme la reconnaissance audiovisuelle ou la génération synchronisée.
Video Transformer
Variante de Vision Transformer adaptée au traitement séquentiel des frames vidéo incorporant des informations temporelles via l'attention spatio-temporelle.
Transformer-based Multimodal Fusion
Technique utilisant les mécanismes d'attention des Transformers pour fusionner intelligemment les caractéristiques de multiples modalités au niveau sémantique.