Глоссарий ИИ
Полный словарь искусственного интеллекта
Токенизация на основе униграммной языковой модели
Метод токенизации, который инициализирует большой словарь, а затем итеративно сокращает его, удаляя подслова, оказывающие наименьшее влияние на правдоподобие униграммной модели, что приводит к созданию оптимального словаря.
Словарь
Статический и предопределенный набор всех уникальных токенов, которые языковая модель может распознать и обработать; размер этого набора напрямую влияет на возможности модели и вычислительную сложность.
Специальный токен
Предопределенный токен с конкретной семантической функцией, например [CLS] для классификации, [SEP] для разделения или [PAD] для выравнивания последовательностей, используемый для структурирования входных данных модели.
Матрица эмбеддингов
Таблица обученных весов, в которой каждая строка соответствует плотному векторному представлению токена из словаря; служит слоем проецирования для преобразования идентификаторов токенов в векторы.
Субсловная токенизация
Стратегия токенизации, которая разбивает слова на более мелкие единицы (подслова), позволяя управлять конечным словарем, но при этом представлять бесконечное количество слов, включая неологизмы и опечатки.
Посимвольная токенизация
Гранулярный подход к токенизации, при котором каждый символ становится токеном; это устраняет проблему слов вне словаря, но приводит к образованию очень длинных последовательностей и увеличению вычислительной сложности.
Пословная токенизация
Метод сегментации, при котором каждое целое слово, разделенное пробелами или знаками препинания, рассматривается как отдельный токен; это просто, но уязвимо к проблеме слов вне словаря (OOV).
Метод токенизации
Набор конкретных правил и алгоритмов (например, BPE, WordPiece), определяющих, как необработанный текст разбивается на токены, что напрямую влияет на производительность и устойчивость модели.
Токенизация по пробелам (Whitespace Tokenisation)
Простой метод токенизации, который разбивает текст, основываясь исключительно на символах пробела, часто используемый в качестве первого шага перед применением более сложных методов.
Токенизация с помощью регулярных выражений (Regex Tokenisation)
Метод сегментации, использующий шаблоны регулярных выражений для определения сложных правил токенизации, позволяющий разделять слова, знаки препинания и другие символы контролируемым образом.
Токенизация SentencePiece
Специфическая реализация, которая рассматривает текст как поток Unicode и применяет алгоритм токенизации (например, BPE или униграммный) для создания полностью декодируемого и не зависящего от языка словаря.
Кодирование парами символов (Character Pair Encoding)
Вариант BPE, работающий на уровне символов, а не байтов, объединяющий наиболее часто встречающиеся пары соседних символов для построения словаря субтокенов.
N-граммная токенизация
Подход, который разбивает текст на непрерывные последовательности из n элементов (символов или слов), захватывая локальную контекстную информацию, но страдающий от комбинаторного взрыва словаря.