Transformers Multimodaux
Video Transformer
Variante de Vision Transformer adaptée au traitement séquentiel des frames vidéo incorporant des informations temporelles via l'attention spatio-temporelle.
← Zurück