Токенизация
Токенизация
Инструмент или конкретный алгоритм, который реализует правила и методы декомпозиции текста на токены в соответствии с предопределённой схемой. Современные токенизаторы включают предварительную обработку, такую как нормализация Unicode и предварительная токенизация перед основной сегментацией.
← Назад