Transformers Multimodaux
MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)
Architecture de détection d'objets end-to-end modulée par le langage naturel, permettant des requêtes textuelles complexes pour localiser et identifier des objets dans les images.
← 뒤로