Tokenisation
Tokenisation par mot
Méthode traditionnelle où chaque mot complet (délimité par des espaces ou ponctuations) devient un token unique. Cette approche souffre de limitations importantes avec les mots rares, les fautes d'orthographe et les vocabulaires de grande taille, la rendant peu adaptée aux LLM modernes.
← Quay lại