Глоссарий ИИ
Полный словарь искусственного интеллекта
Токенизация
Инструмент или конкретный алгоритм, который реализует правила и методы декомпозиции текста на токены в соответствии с предопределённой схемой. Современные токенизаторы включают предварительную обработку, такую как нормализация Unicode и предварительная токенизация перед основной сегментацией.
Посимвольная токенизация
Подход мелкой гранулярности, где каждый отдельный символ становится токеном, полностью устраняя проблему слов вне словаря. Хотя теоретически идеальная для покрытия, этот метод значительно увеличивает длину последовательностей и снижает вычислительную эффективность.
Пословная токенизация
Традиционный метод, где каждое полное слово (разделённое пробелами или знаками препинания) становится уникальным токеном. Этот подход страдает от важных ограничений с редкими словами, опечатками и большими словарями, что делает его неподходящим для современных LLM.
Токенизация по подсловам
Промежуточная стратегия, которая делит слова на значимые фрагменты на основе статистики совместной встречаемости, такие как префиксы, суффиксы или корни. Этот метод представляет собой современный уровень техники в трансформерах, оптимизируя баланс между покрытием словаря и вычислительной эффективностью.
Пространство токенизации
Математическое измерение, определяемое общим размером словаря, где каждый токен отображается на уникальный числовой идентификатор. Это пространство определяет вычислительную сложность обработки и напрямую влияет на размер встраиваний и слоёв внимания в архитектурах трансформеров.
Контекстуальная токенизация
Продвинутая техника, где решение о сегментации зависит от окружающего контекста, позволяя различную токенизацию для одного и того же слова в зависимости от его использования. Этот подход, используемый в таких моделях, как XLNet, улучшает семантическое представление, но значительно увеличивает вычислительную сложность.
Словарный пробел (OOV)
Проблема, возникающая, когда токены, отсутствующие в предопределённом словаре, появляются во время вывода, требуя специфических стратегий обработки. Современные подходы токенизации по подсловам значительно сокращают случаи OOV, но обработка этих случаев остаётся критически важной для надёжности.
Жадная токенизация
Стратегия сегментации, которая всегда выбирает самый длинный возможный токен, соответствующий началу оставшегося слова для обработки. Этот простой и быстрый подход, однако, может иногда давать неоптимальные результаты по сравнению с глобальными методами, которые рассматривают всю последовательность.
Вероятностная токенизация
Подход, который использует вероятностные модели для оценки различных возможных сегментаций и выбора наиболее вероятной в соответствии с обучающим корпусом. В отличие от детерминистических методов, он может создавать переменные токенизации в зависимости от изученных условных вероятностей.