Токенизация и кодирование

📖

термины

Токенизация на основе униграммной языковой модели

Метод токенизации, который инициализирует большой словарь, а затем итеративно сокращает его, удаляя подслова, оказывающие наименьшее влияние на правдоподобие униграммной модели, что приводит к созданию оптимального словаря.

📖

термины

Словарь

Статический и предопределенный набор всех уникальных токенов, которые языковая модель может распознать и обработать; размер этого набора напрямую влияет на возможности модели и вычислительную сложность.

📖

термины

Специальный токен

Предопределенный токен с конкретной семантической функцией, например [CLS] для классификации, [SEP] для разделения или [PAD] для выравнивания последовательностей, используемый для структурирования входных данных модели.

📖

термины

Матрица эмбеддингов

Таблица обученных весов, в которой каждая строка соответствует плотному векторному представлению токена из словаря; служит слоем проецирования для преобразования идентификаторов токенов в векторы.

📖

термины

Субсловная токенизация

Стратегия токенизации, которая разбивает слова на более мелкие единицы (подслова), позволяя управлять конечным словарем, но при этом представлять бесконечное количество слов, включая неологизмы и опечатки.

📖

термины

Посимвольная токенизация

Гранулярный подход к токенизации, при котором каждый символ становится токеном; это устраняет проблему слов вне словаря, но приводит к образованию очень длинных последовательностей и увеличению вычислительной сложности.

📖

термины

Пословная токенизация

Метод сегментации, при котором каждое целое слово, разделенное пробелами или знаками препинания, рассматривается как отдельный токен; это просто, но уязвимо к проблеме слов вне словаря (OOV).

📖

термины

Метод токенизации

Набор конкретных правил и алгоритмов (например, BPE, WordPiece), определяющих, как необработанный текст разбивается на токены, что напрямую влияет на производительность и устойчивость модели.

📖

термины

Токенизация по пробелам (Whitespace Tokenisation)

Простой метод токенизации, который разбивает текст, основываясь исключительно на символах пробела, часто используемый в качестве первого шага перед применением более сложных методов.

📖

термины

Токенизация с помощью регулярных выражений (Regex Tokenisation)

Метод сегментации, использующий шаблоны регулярных выражений для определения сложных правил токенизации, позволяющий разделять слова, знаки препинания и другие символы контролируемым образом.

📖

термины

Токенизация SentencePiece

Специфическая реализация, которая рассматривает текст как поток Unicode и применяет алгоритм токенизации (например, BPE или униграммный) для создания полностью декодируемого и не зависящего от языка словаря.

📖

термины

Кодирование парами символов (Character Pair Encoding)

Вариант BPE, работающий на уровне символов, а не байтов, объединяющий наиболее часто встречающиеся пары соседних символов для построения словаря субтокенов.

📖

термины

N-граммная токенизация

Подход, который разбивает текст на непрерывные последовательности из n элементов (символов или слов), захватывая локальную контекстную информацию, но страдающий от комбинаторного взрыва словаря.

Глоссарий ИИ

Токенизация на основе униграммной языковой модели

Словарь

Специальный токен

Матрица эмбеддингов

Субсловная токенизация

Посимвольная токенизация

Пословная токенизация

Метод токенизации

Токенизация по пробелам (Whitespace Tokenisation)

Токенизация с помощью регулярных выражений (Regex Tokenisation)

Токенизация SentencePiece

Кодирование парами символов (Character Pair Encoding)

N-граммная токенизация

Результаты не найдены