Tokenization Subword
Vocabulary Coverage
Métrique évaluant la proportion du corpus pouvant être représentée sans tokens UNK, optimisée par les algorithmes subword pour atteindre typiquement plus de 99.9% de couverture sur les corpus modernes.
← Zurück