Глоссарий ИИ
Полный словарь искусственного интеллекта
Byte Pair Encoding (BPE)
Алгоритм сжатия данных, адаптированный для токенизации, который итеративно объединяет наиболее частые пары символов для создания оптимизированного словаря подслов.
WordPiece
Вариант BPE, разработанный Google, который максимизирует вероятность языка при объединении токенов, используется в моделях BERT и их вариантах.
Unigram Language Model
Подход к токенизации на основе униграммной языковой модели, который выбирает наилучшее разбиение, максимизируя произведение вероятностей токенов в последовательности.
SentencePiece
Языково-независимая библиотека токенизации, которая обрабатывает текст как последовательность необработанных юникодов, устраняя необходимость в языково-специфической предобработке.
Vocabulary Size
Критический параметр, определяющий общее количество уникальных токенов в словаре модели, напрямую влияющий на размер модели и её способность обрабатывать языковое разнообразие.
Special Tokens
Зарезервированные токены, такие как [CLS], [SEP], [MASK], [PAD], используемые для разграничения последовательностей, маскирования элементов или заполнения батчей до единой длины.
Tokenizer Training
Процесс машинного обучения словаря и правил сегментации на основе корпуса текстов, оптимизирующий представление для конкретной задачи или домена.
Subword Regularization
Техника аугментации данных, применяющая различные возможные сегментации одного и того же текста во время обучения, улучшая устойчивость и обобщающую способность модели.
Усечение словаря
Процесс ограничения словаря N наиболее частыми токенами, при котором менее частые токены заменяются субтокенами или токеном [UNK] для оптимизации вычислительной эффективности.
Конвейер токенизации
Последовательная цепочка этапов предобработки, включающая нормализацию, предварительную токенизацию, сегментацию модели и постобработку для получения конечных токенов.
Конфигурация токенизатора
JSON-файл конфигурации, содержащий все гиперпараметры и метаданные, необходимые для точного воспроизведения поведения конкретного токенизатора.
Быстрые токенизаторы
Оптимизированные реализации токенизаторов, использующие Rust и эффективные структуры данных, обеспечивающие производительность в 10-100 раз выше, чем чистые реализации на Python.
Инференс токенизатора
Фаза применения обученного токенизатора к новым текстовым данным, преобразующая необработанный текст в последовательности токенов, готовых для обработки моделью.