Transformers Multimodais
MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)
Arquitetura de detecção de objetos end-to-end modulada pela linguagem natural, permitindo consultas textuais complexas para localizar e identificar objetos em imagens.
← Voltar