قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
Token Fusion
Technique de concaténation ou de fusion des tokens provenant de différentes modalités avant leur traitement par les couches transformer. Permet une intégration précoce des informations multimodales pour une meilleure représentation conjointe.
ALIGN
Modèle contrastif image-texte entraîné sur un milliard de paires bruitées filtrées automatiquement. Démontre que la quantité de données peut compenser le bruit dans l'apprentissage multimodal à grande échelle.
Flamingo
Modèle vision-langage qui adapte les transformers pré-entraînés existants avec des modules d'attention visuelle-linguistique. Permet le few-shot learning sur des tâches complexes de compréhension multimodale sans réentraînement complet.
Cross-Modal Representation
Espace vectoriel partagé où les embeddings de différentes modalités sont alignés sémantiquement pour permettre des interactions inter-modales. Facilite le transfert de connaissances et la compréhension unifiée entre textes, images, audio et vidéo.
MViT (Multiscale Vision Transformer)
Architecture transformer vidéo qui combine des caractéristiques à plusieurs échelles temporelles et spatiales. Utilise une attention pyramidale pour capturer efficacement les relations à longue portée dans les séquences vidéo.
Multi-Head Cross Attention
Extension du mécanisme multi-tête où chaque tête apprend différentes correspondances cross-modales entre modalités. Permet une capture plus riche et diversifiée des relations inter-modales dans les architectures transformers multimodales.