Tokenización
Tokenizador
Herramienta o algoritmo específico que implementa las reglas y métodos de descomposición del texto en tokens según un esquema predeterminado. Los tokenizadores modernos incluyen preprocesamientos como la normalización Unicode y la pre-tokenización antes de la segmentación principal.
← Volver