BERT et ses Variantes
ELECTRA
Architecture de pré-entraînement efficiente remplaçant le masked language modeling par le remplacement de tokens corrompus. Utilise un discriminateur qui identifie les tokens remplacés, permettant un entraînement plus rapide et plus performant.
← Retour