Глоссарий ИИ
Полный словарь искусственного интеллекта
Masked Language Modeling (MLM)
Цель предобучения, при которой 15% токенов случайным образом маскируются, и модель должна предсказать их, используя двунаправленный контекст. Эта техника позволяет BERT изучать глубокие контекстуальные представления, заставляя модель понимать семантические связи между словами.
Next Sentence Prediction (NSP)
Бинарная задача предобучения, в которой модель предсказывает, являются ли два данных предложения последовательными в исходном тексте. Хотя эта цель и является спорной, она помогает BERT понимать межфразовые связи для таких задач, как QA и NLI.
WordPiece Tokenization
Алгоритм сегментации, который делит слова на морфологические подединицы для обработки неизвестного словаря и оптимизации представления. Этот подход позволяет BERT эффективно обрабатывать редкие слова и неологизмы, разбивая их на известные токены.
Self-Attention Mechanism
Фундаментальный механизм, при котором каждый токен вычисляет веса внимания по отношению ко всем остальным токенам последовательности. Эта операция позволяет BERT улавливать дальнодействующие зависимости и создавать богатые контекстуальные представления.
Segment Embeddings
Специализированные эмбеддинги, которые различают разные сегменты во входных данных, обычно используемые для разделения предложений A и B в задачах с парами предложений. Эти эмбеддинги позволяют модели различать контекст каждого сегмента.
Transformer Encoder Block
Основная вычислительная единица BERT, состоящая из многоголового внимания, за которым следует сеть прямого распространения с остаточными соединениями и нормализацией. Каждый блок обрабатывает всю последовательность одновременно, сохраняя глобальные связи.
Pooling Layer
Финальный слой, который агрегирует представления токенов в единый вектор для задач классификации. BERT обычно использует представление токена [CLS] или выполняет усредняющий пулинг по всем токенам.
Hidden States
Векторные представления высокой размерности, создаваемые на каждом слое Трансформера для каждого токена последовательности. Эти скрытые состояния постепенно улавливают всё более абстрактные семантические характеристики.
Предварительное обучение
Фаза обучения без учителя на обширных корпусах, где BERT изучает общие языковые представления с помощью MLM и NSP. Этот этап закладывает основы знаний модели перед тонкой настройкой для конкретных задач.
Архитектура только-кодировщика
Структура BERT, использующая только кодирующие блоки трансформера, в отличие от моделей кодировщик-декодер. Эта архитектура оптимизирована для задач понимания и классификации текста.
[CLS] токен
Специальный токен, добавляемый в начало каждой входной последовательности, конечное представление которого используется для задач классификации. Этот токен агрегирует контекстную информацию всей последовательности для принятия решений на глобальном уровне.