🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Masked Language Modeling (MLM)

Цель предобучения, при которой 15% токенов случайным образом маскируются, и модель должна предсказать их, используя двунаправленный контекст. Эта техника позволяет BERT изучать глубокие контекстуальные представления, заставляя модель понимать семантические связи между словами.

📖
термины

Next Sentence Prediction (NSP)

Бинарная задача предобучения, в которой модель предсказывает, являются ли два данных предложения последовательными в исходном тексте. Хотя эта цель и является спорной, она помогает BERT понимать межфразовые связи для таких задач, как QA и NLI.

📖
термины

WordPiece Tokenization

Алгоритм сегментации, который делит слова на морфологические подединицы для обработки неизвестного словаря и оптимизации представления. Этот подход позволяет BERT эффективно обрабатывать редкие слова и неологизмы, разбивая их на известные токены.

📖
термины

Self-Attention Mechanism

Фундаментальный механизм, при котором каждый токен вычисляет веса внимания по отношению ко всем остальным токенам последовательности. Эта операция позволяет BERT улавливать дальнодействующие зависимости и создавать богатые контекстуальные представления.

📖
термины

Segment Embeddings

Специализированные эмбеддинги, которые различают разные сегменты во входных данных, обычно используемые для разделения предложений A и B в задачах с парами предложений. Эти эмбеддинги позволяют модели различать контекст каждого сегмента.

📖
термины

Transformer Encoder Block

Основная вычислительная единица BERT, состоящая из многоголового внимания, за которым следует сеть прямого распространения с остаточными соединениями и нормализацией. Каждый блок обрабатывает всю последовательность одновременно, сохраняя глобальные связи.

📖
термины

Pooling Layer

Финальный слой, который агрегирует представления токенов в единый вектор для задач классификации. BERT обычно использует представление токена [CLS] или выполняет усредняющий пулинг по всем токенам.

📖
термины

Hidden States

Векторные представления высокой размерности, создаваемые на каждом слое Трансформера для каждого токена последовательности. Эти скрытые состояния постепенно улавливают всё более абстрактные семантические характеристики.

📖
термины

Предварительное обучение

Фаза обучения без учителя на обширных корпусах, где BERT изучает общие языковые представления с помощью MLM и NSP. Этот этап закладывает основы знаний модели перед тонкой настройкой для конкретных задач.

📖
термины

Архитектура только-кодировщика

Структура BERT, использующая только кодирующие блоки трансформера, в отличие от моделей кодировщик-декодер. Эта архитектура оптимизирована для задач понимания и классификации текста.

📖
термины

[CLS] токен

Специальный токен, добавляемый в начало каждой входной последовательности, конечное представление которого используется для задач классификации. Этот токен агрегирует контекстную информацию всей последовательности для принятия решений на глобальном уровне.

🔍

Результаты не найдены