🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Токенизация

Инструмент или конкретный алгоритм, который реализует правила и методы декомпозиции текста на токены в соответствии с предопределённой схемой. Современные токенизаторы включают предварительную обработку, такую как нормализация Unicode и предварительная токенизация перед основной сегментацией.

📖
термины

Посимвольная токенизация

Подход мелкой гранулярности, где каждый отдельный символ становится токеном, полностью устраняя проблему слов вне словаря. Хотя теоретически идеальная для покрытия, этот метод значительно увеличивает длину последовательностей и снижает вычислительную эффективность.

📖
термины

Пословная токенизация

Традиционный метод, где каждое полное слово (разделённое пробелами или знаками препинания) становится уникальным токеном. Этот подход страдает от важных ограничений с редкими словами, опечатками и большими словарями, что делает его неподходящим для современных LLM.

📖
термины

Токенизация по подсловам

Промежуточная стратегия, которая делит слова на значимые фрагменты на основе статистики совместной встречаемости, такие как префиксы, суффиксы или корни. Этот метод представляет собой современный уровень техники в трансформерах, оптимизируя баланс между покрытием словаря и вычислительной эффективностью.

📖
термины

Пространство токенизации

Математическое измерение, определяемое общим размером словаря, где каждый токен отображается на уникальный числовой идентификатор. Это пространство определяет вычислительную сложность обработки и напрямую влияет на размер встраиваний и слоёв внимания в архитектурах трансформеров.

📖
термины

Контекстуальная токенизация

Продвинутая техника, где решение о сегментации зависит от окружающего контекста, позволяя различную токенизацию для одного и того же слова в зависимости от его использования. Этот подход, используемый в таких моделях, как XLNet, улучшает семантическое представление, но значительно увеличивает вычислительную сложность.

📖
термины

Словарный пробел (OOV)

Проблема, возникающая, когда токены, отсутствующие в предопределённом словаре, появляются во время вывода, требуя специфических стратегий обработки. Современные подходы токенизации по подсловам значительно сокращают случаи OOV, но обработка этих случаев остаётся критически важной для надёжности.

📖
термины

Жадная токенизация

Стратегия сегментации, которая всегда выбирает самый длинный возможный токен, соответствующий началу оставшегося слова для обработки. Этот простой и быстрый подход, однако, может иногда давать неоптимальные результаты по сравнению с глобальными методами, которые рассматривают всю последовательность.

📖
термины

Вероятностная токенизация

Подход, который использует вероятностные модели для оценки различных возможных сегментаций и выбора наиболее вероятной в соответствии с обучающим корпусом. В отличие от детерминистических методов, он может создавать переменные токенизации в зависимости от изученных условных вероятностей.

🔍

Результаты не найдены