محولات الصوت
Positional Encoding 2D pour Spectrogrammes
Une technique de codage de position qui encode les informations spatiales (temps et fréquence) pour les tokens extraits de spectrogrammes, permettant au Transformer de comprendre la structure 2D du signal audio.
← رجوع