Глоссарий ИИ
Полный словарь искусственного интеллекта
Субсловная токенизация
Техника сегментации текста на лингвистические единицы, меньшие, чем слова, но большие, чем символы, позволяющая эффективно управлять словарем и редкими словами в моделях трансформеров.
Неизвестный токен (UNK)
Специальный токен, используемый для представления слов или подслов, отсутствующих в словаре токенизатора, что позволяет модели обрабатывать входные данные вне словаря во время инференса.
Морфологический анализ
Процесс идентификации морфем и грамматических структур в словах, оптимизированный субсловными токенизаторами, которые естественным образом улавливают морфологические закономерности языков.
Посимвольная токенизация
Подход сегментации, рассматривающий каждый отдельный символ как токен, что устраняет проблемы со словарем, но увеличивает длину последовательностей в ущерб вычислительной эффективности.
Токенизация на уровне слов
Традиционный метод, использующий целые слова в качестве единиц токенизации, ограниченный взрывным ростом словаря и неспособностью обрабатывать слова вне словаря и морфологические вариации.
BPE Dropouts
Техника регуляризации, внедряющая случайность в процесс токенизации BPE путем игнорирования некоторых слияний во время обучения, что повышает устойчивость и обобщающую способность модели.
Специальные токены (CLS, SEP, PAD, MASK)
Зарезервированные токены с конкретными функциями в BERT: CLS для классификации, SEP для разделения, PAD для выравнивания и MASK для маскирования во время предобучения.
Сопоставление идентификаторов токенов
Взаимно однозначное соответствие между каждым токеном в словаре и уникальным числовым идентификатором, обеспечивающее эффективную конвертацию между текстовыми и числовыми представлениями в нейронных моделях.
Сжатие токенов
Основная цель субтокенизации, направленная на минимизацию среднего количества токенов на слово при сохранении словаря разумного размера для обеспечения оптимальной вычислительной производительности.
Порог частоты токенов
Параметр, определяющий минимальную частоту, которую токен должен иметь, чтобы быть включенным в словарь; он критически важен для баланса между охватом и размером словаря при субтокенизации.
Алгоритм сегментации на подслова
Набор правил и эвристик, определяющий способ разделения неизвестных слов на существующие в словаре подслова, основанный на принципах максимизации вероятности и минимизации количества сегментов.
Покрытие словаря
Метрика, оценивающая долю корпуса, которая может быть представлена без токенов UNK; она оптимизируется алгоритмами субтокенизации для достижения, как правило, более 99,9% покрытия на современных корпусах.