Подсловная токенизация
Покрытие словаря
Метрика, оценивающая долю корпуса, которая может быть представлена без токенов UNK; она оптимизируется алгоритмами субтокенизации для достижения, как правило, более 99,9% покрытия на современных корпусах.
← Назад