ভিশন ট্রান্সফরমার (ViT)
২ডি অবস্থানগত এনকোডিং
এম্বেডিংয়ে যোগ করা প্যাচগুলোর স্থানিক অবস্থানের তথ্য, যা সিকোয়েন্সিয়াল প্রক্রিয়াকরণ সত্ত্বেও মডেলকে ইমেজের ২ডি কাঠামো বুঝতে দেয়।
← ফিরে যানএম্বেডিংয়ে যোগ করা প্যাচগুলোর স্থানিক অবস্থানের তথ্য, যা সিকোয়েন্সিয়াল প্রক্রিয়াকরণ সত্ত্বেও মডেলকে ইমেজের ২ডি কাঠামো বুঝতে দেয়।
← ফিরে যান