Маски внимания
Binary Mask
Matrice contenant uniquement des valeurs 0 et 1 où 1 indique les positions à conserver et 0 celles à masquer, appliquée généralement par multiplication élémentaire avant ou après l'attention softmax.
← Назад