Modèles Multimodaux
Tokenisation Visuelle
Technique qui découpe une image en une séquence de patches ou de tokens discrets, souvent via un réseau de neurones comme un Vision Transformer (ViT), pour la rendre compatible avec l'architecture des transformeurs textuels.
← Retour