🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Субсловная токенизация

Техника сегментации текста на лингвистические единицы, меньшие, чем слова, но большие, чем символы, позволяющая эффективно управлять словарем и редкими словами в моделях трансформеров.

📖
термины

Неизвестный токен (UNK)

Специальный токен, используемый для представления слов или подслов, отсутствующих в словаре токенизатора, что позволяет модели обрабатывать входные данные вне словаря во время инференса.

📖
термины

Морфологический анализ

Процесс идентификации морфем и грамматических структур в словах, оптимизированный субсловными токенизаторами, которые естественным образом улавливают морфологические закономерности языков.

📖
термины

Посимвольная токенизация

Подход сегментации, рассматривающий каждый отдельный символ как токен, что устраняет проблемы со словарем, но увеличивает длину последовательностей в ущерб вычислительной эффективности.

📖
термины

Токенизация на уровне слов

Традиционный метод, использующий целые слова в качестве единиц токенизации, ограниченный взрывным ростом словаря и неспособностью обрабатывать слова вне словаря и морфологические вариации.

📖
термины

BPE Dropouts

Техника регуляризации, внедряющая случайность в процесс токенизации BPE путем игнорирования некоторых слияний во время обучения, что повышает устойчивость и обобщающую способность модели.

📖
термины

Специальные токены (CLS, SEP, PAD, MASK)

Зарезервированные токены с конкретными функциями в BERT: CLS для классификации, SEP для разделения, PAD для выравнивания и MASK для маскирования во время предобучения.

📖
термины

Сопоставление идентификаторов токенов

Взаимно однозначное соответствие между каждым токеном в словаре и уникальным числовым идентификатором, обеспечивающее эффективную конвертацию между текстовыми и числовыми представлениями в нейронных моделях.

📖
термины

Сжатие токенов

Основная цель субтокенизации, направленная на минимизацию среднего количества токенов на слово при сохранении словаря разумного размера для обеспечения оптимальной вычислительной производительности.

📖
термины

Порог частоты токенов

Параметр, определяющий минимальную частоту, которую токен должен иметь, чтобы быть включенным в словарь; он критически важен для баланса между охватом и размером словаря при субтокенизации.

📖
термины

Алгоритм сегментации на подслова

Набор правил и эвристик, определяющий способ разделения неизвестных слов на существующие в словаре подслова, основанный на принципах максимизации вероятности и минимизации количества сегментов.

📖
термины

Покрытие словаря

Метрика, оценивающая долю корпуса, которая может быть представлена без токенов UNK; она оптимизируется алгоритмами субтокенизации для достижения, как правило, более 99,9% покрытия на современных корпусах.

🔍

Результаты не найдены