Pre-training et Corpora
Subword tokenisation
Approche de tokenisation qui divise les mots en unités plus petites (morphèmes), permettant au modèle de gérer les mots rares et les néologismes efficacement.
← Wstecz