Токенизация

📖

термины

Инструмент или конкретный алгоритм, который реализует правила и методы декомпозиции текста на токены в соответствии с предопределённой схемой. Современные токенизаторы включают предварительную обработку, такую как нормализация Unicode и предварительная токенизация перед основной сегментацией.

📖

термины

Посимвольная токенизация

Подход мелкой гранулярности, где каждый отдельный символ становится токеном, полностью устраняя проблему слов вне словаря. Хотя теоретически идеальная для покрытия, этот метод значительно увеличивает длину последовательностей и снижает вычислительную эффективность.

📖

термины

Пословная токенизация

Традиционный метод, где каждое полное слово (разделённое пробелами или знаками препинания) становится уникальным токеном. Этот подход страдает от важных ограничений с редкими словами, опечатками и большими словарями, что делает его неподходящим для современных LLM.

📖

термины

Токенизация по подсловам

Промежуточная стратегия, которая делит слова на значимые фрагменты на основе статистики совместной встречаемости, такие как префиксы, суффиксы или корни. Этот метод представляет собой современный уровень техники в трансформерах, оптимизируя баланс между покрытием словаря и вычислительной эффективностью.

📖

термины

Пространство токенизации

Математическое измерение, определяемое общим размером словаря, где каждый токен отображается на уникальный числовой идентификатор. Это пространство определяет вычислительную сложность обработки и напрямую влияет на размер встраиваний и слоёв внимания в архитектурах трансформеров.

📖

термины

Контекстуальная токенизация

Продвинутая техника, где решение о сегментации зависит от окружающего контекста, позволяя различную токенизацию для одного и того же слова в зависимости от его использования. Этот подход, используемый в таких моделях, как XLNet, улучшает семантическое представление, но значительно увеличивает вычислительную сложность.

📖

термины

Словарный пробел (OOV)

Проблема, возникающая, когда токены, отсутствующие в предопределённом словаре, появляются во время вывода, требуя специфических стратегий обработки. Современные подходы токенизации по подсловам значительно сокращают случаи OOV, но обработка этих случаев остаётся критически важной для надёжности.

📖

термины

Жадная токенизация

Стратегия сегментации, которая всегда выбирает самый длинный возможный токен, соответствующий началу оставшегося слова для обработки. Этот простой и быстрый подход, однако, может иногда давать неоптимальные результаты по сравнению с глобальными методами, которые рассматривают всю последовательность.

📖

термины

Вероятностная токенизация

Подход, который использует вероятностные модели для оценки различных возможных сегментаций и выбора наиболее вероятной в соответствии с обучающим корпусом. В отличие от детерминистических методов, он может создавать переменные токенизации в зависимости от изученных условных вероятностей.

Глоссарий ИИ

Токенизация

Посимвольная токенизация

Пословная токенизация

Токенизация по подсловам

Пространство токенизации

Контекстуальная токенизация

Словарный пробел (OOV)

Жадная токенизация

Вероятностная токенизация

Результаты не найдены