Архитектура BERT - Глоссарий ИИ

📖

термины

Masked Language Modeling (MLM)

Цель предобучения, при которой 15% токенов случайным образом маскируются, и модель должна предсказать их, используя двунаправленный контекст. Эта техника позволяет BERT изучать глубокие контекстуальные представления, заставляя модель понимать семантические связи между словами.

📖

термины

Next Sentence Prediction (NSP)

Бинарная задача предобучения, в которой модель предсказывает, являются ли два данных предложения последовательными в исходном тексте. Хотя эта цель и является спорной, она помогает BERT понимать межфразовые связи для таких задач, как QA и NLI.

📖

термины

WordPiece Tokenization

Алгоритм сегментации, который делит слова на морфологические подединицы для обработки неизвестного словаря и оптимизации представления. Этот подход позволяет BERT эффективно обрабатывать редкие слова и неологизмы, разбивая их на известные токены.

📖

термины

Self-Attention Mechanism

Фундаментальный механизм, при котором каждый токен вычисляет веса внимания по отношению ко всем остальным токенам последовательности. Эта операция позволяет BERT улавливать дальнодействующие зависимости и создавать богатые контекстуальные представления.

📖

термины

Segment Embeddings

Специализированные эмбеддинги, которые различают разные сегменты во входных данных, обычно используемые для разделения предложений A и B в задачах с парами предложений. Эти эмбеддинги позволяют модели различать контекст каждого сегмента.

📖

термины

Transformer Encoder Block

Основная вычислительная единица BERT, состоящая из многоголового внимания, за которым следует сеть прямого распространения с остаточными соединениями и нормализацией. Каждый блок обрабатывает всю последовательность одновременно, сохраняя глобальные связи.

📖

термины

Pooling Layer

Финальный слой, который агрегирует представления токенов в единый вектор для задач классификации. BERT обычно использует представление токена [CLS] или выполняет усредняющий пулинг по всем токенам.

📖

термины

Hidden States

Векторные представления высокой размерности, создаваемые на каждом слое Трансформера для каждого токена последовательности. Эти скрытые состояния постепенно улавливают всё более абстрактные семантические характеристики.

📖

термины

Предварительное обучение

Фаза обучения без учителя на обширных корпусах, где BERT изучает общие языковые представления с помощью MLM и NSP. Этот этап закладывает основы знаний модели перед тонкой настройкой для конкретных задач.

📖

термины

Архитектура только-кодировщика

Структура BERT, использующая только кодирующие блоки трансформера, в отличие от моделей кодировщик-декодер. Эта архитектура оптимизирована для задач понимания и классификации текста.

📖

термины

[CLS] токен

Специальный токен, добавляемый в начало каждой входной последовательности, конечное представление которого используется для задач классификации. Этот токен агрегирует контекстную информацию всей последовательности для принятия решений на глобальном уровне.

Глоссарий ИИ

Masked Language Modeling (MLM)

Next Sentence Prediction (NSP)

WordPiece Tokenization

Self-Attention Mechanism

Segment Embeddings

Transformer Encoder Block

Pooling Layer

Hidden States

Предварительное обучение

Архитектура только-кодировщика

[CLS] токен

Результаты не найдены