🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Токенизация на основе униграммной языковой модели

Метод токенизации, который инициализирует большой словарь, а затем итеративно сокращает его, удаляя подслова, оказывающие наименьшее влияние на правдоподобие униграммной модели, что приводит к созданию оптимального словаря.

📖
термины

Словарь

Статический и предопределенный набор всех уникальных токенов, которые языковая модель может распознать и обработать; размер этого набора напрямую влияет на возможности модели и вычислительную сложность.

📖
термины

Специальный токен

Предопределенный токен с конкретной семантической функцией, например [CLS] для классификации, [SEP] для разделения или [PAD] для выравнивания последовательностей, используемый для структурирования входных данных модели.

📖
термины

Матрица эмбеддингов

Таблица обученных весов, в которой каждая строка соответствует плотному векторному представлению токена из словаря; служит слоем проецирования для преобразования идентификаторов токенов в векторы.

📖
термины

Субсловная токенизация

Стратегия токенизации, которая разбивает слова на более мелкие единицы (подслова), позволяя управлять конечным словарем, но при этом представлять бесконечное количество слов, включая неологизмы и опечатки.

📖
термины

Посимвольная токенизация

Гранулярный подход к токенизации, при котором каждый символ становится токеном; это устраняет проблему слов вне словаря, но приводит к образованию очень длинных последовательностей и увеличению вычислительной сложности.

📖
термины

Пословная токенизация

Метод сегментации, при котором каждое целое слово, разделенное пробелами или знаками препинания, рассматривается как отдельный токен; это просто, но уязвимо к проблеме слов вне словаря (OOV).

📖
термины

Метод токенизации

Набор конкретных правил и алгоритмов (например, BPE, WordPiece), определяющих, как необработанный текст разбивается на токены, что напрямую влияет на производительность и устойчивость модели.

📖
термины

Токенизация по пробелам (Whitespace Tokenisation)

Простой метод токенизации, который разбивает текст, основываясь исключительно на символах пробела, часто используемый в качестве первого шага перед применением более сложных методов.

📖
термины

Токенизация с помощью регулярных выражений (Regex Tokenisation)

Метод сегментации, использующий шаблоны регулярных выражений для определения сложных правил токенизации, позволяющий разделять слова, знаки препинания и другие символы контролируемым образом.

📖
термины

Токенизация SentencePiece

Специфическая реализация, которая рассматривает текст как поток Unicode и применяет алгоритм токенизации (например, BPE или униграммный) для создания полностью декодируемого и не зависящего от языка словаря.

📖
термины

Кодирование парами символов (Character Pair Encoding)

Вариант BPE, работающий на уровне символов, а не байтов, объединяющий наиболее часто встречающиеся пары соседних символов для построения словаря субтокенов.

📖
термины

N-граммная токенизация

Подход, который разбивает текст на непрерывные последовательности из n элементов (символов или слов), захватывая локальную контекстную информацию, но страдающий от комбинаторного взрыва словаря.

🔍

Результаты не найдены