قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227

الفئات

2,955

الفئات الفرعية

34,512

المصطلحات

📖

المصطلحات

Token Fusion

Technique de concaténation ou de fusion des tokens provenant de différentes modalités avant leur traitement par les couches transformer. Permet une intégration précoce des informations multimodales pour une meilleure représentation conjointe.

📖

المصطلحات

ALIGN

Modèle contrastif image-texte entraîné sur un milliard de paires bruitées filtrées automatiquement. Démontre que la quantité de données peut compenser le bruit dans l'apprentissage multimodal à grande échelle.

📖

المصطلحات

Flamingo

Modèle vision-langage qui adapte les transformers pré-entraînés existants avec des modules d'attention visuelle-linguistique. Permet le few-shot learning sur des tâches complexes de compréhension multimodale sans réentraînement complet.

📖

المصطلحات

Cross-Modal Representation

Espace vectoriel partagé où les embeddings de différentes modalités sont alignés sémantiquement pour permettre des interactions inter-modales. Facilite le transfert de connaissances et la compréhension unifiée entre textes, images, audio et vidéo.

📖

المصطلحات

MViT (Multiscale Vision Transformer)

Architecture transformer vidéo qui combine des caractéristiques à plusieurs échelles temporelles et spatiales. Utilise une attention pyramidale pour capturer efficacement les relations à longue portée dans les séquences vidéo.

📖

المصطلحات

Multi-Head Cross Attention

Extension du mécanisme multi-tête où chaque tête apprend différentes correspondances cross-modales entre modalités. Permet une capture plus riche et diversifiée des relations inter-modales dans les architectures transformers multimodales.

🔍

قاموس الذكاء الاصطناعي

Token Fusion

ALIGN

Flamingo

Cross-Modal Representation

MViT (Multiscale Vision Transformer)

Multi-Head Cross Attention

لم يتم العثور على نتائج