Подсловная токенизация

📖

термины

Субсловная токенизация

Техника сегментации текста на лингвистические единицы, меньшие, чем слова, но большие, чем символы, позволяющая эффективно управлять словарем и редкими словами в моделях трансформеров.

📖

термины

Неизвестный токен (UNK)

Специальный токен, используемый для представления слов или подслов, отсутствующих в словаре токенизатора, что позволяет модели обрабатывать входные данные вне словаря во время инференса.

📖

термины

Морфологический анализ

Процесс идентификации морфем и грамматических структур в словах, оптимизированный субсловными токенизаторами, которые естественным образом улавливают морфологические закономерности языков.

📖

термины

Посимвольная токенизация

Подход сегментации, рассматривающий каждый отдельный символ как токен, что устраняет проблемы со словарем, но увеличивает длину последовательностей в ущерб вычислительной эффективности.

📖

термины

Токенизация на уровне слов

Традиционный метод, использующий целые слова в качестве единиц токенизации, ограниченный взрывным ростом словаря и неспособностью обрабатывать слова вне словаря и морфологические вариации.

📖

термины

BPE Dropouts

Техника регуляризации, внедряющая случайность в процесс токенизации BPE путем игнорирования некоторых слияний во время обучения, что повышает устойчивость и обобщающую способность модели.

📖

термины

Специальные токены (CLS, SEP, PAD, MASK)

Зарезервированные токены с конкретными функциями в BERT: CLS для классификации, SEP для разделения, PAD для выравнивания и MASK для маскирования во время предобучения.

📖

термины

Сопоставление идентификаторов токенов

Взаимно однозначное соответствие между каждым токеном в словаре и уникальным числовым идентификатором, обеспечивающее эффективную конвертацию между текстовыми и числовыми представлениями в нейронных моделях.

📖

термины

Сжатие токенов

Основная цель субтокенизации, направленная на минимизацию среднего количества токенов на слово при сохранении словаря разумного размера для обеспечения оптимальной вычислительной производительности.

📖

термины

Порог частоты токенов

Параметр, определяющий минимальную частоту, которую токен должен иметь, чтобы быть включенным в словарь; он критически важен для баланса между охватом и размером словаря при субтокенизации.

📖

термины

Алгоритм сегментации на подслова

Набор правил и эвристик, определяющий способ разделения неизвестных слов на существующие в словаре подслова, основанный на принципах максимизации вероятности и минимизации количества сегментов.

📖

термины

Покрытие словаря

Метрика, оценивающая долю корпуса, которая может быть представлена без токенов UNK; она оптимизируется алгоритмами субтокенизации для достижения, как правило, более 99,9% покрытия на современных корпусах.

Глоссарий ИИ

Субсловная токенизация

Неизвестный токен (UNK)

Морфологический анализ

Посимвольная токенизация

Токенизация на уровне слов

BPE Dropouts

Специальные токены (CLS, SEP, PAD, MASK)

Сопоставление идентификаторов токенов

Сжатие токенов

Порог частоты токенов

Алгоритм сегментации на подслова

Покрытие словаря

Результаты не найдены