Глоссарий ИИ
Полный словарь искусственного интеллекта
DistilBERT (дистиллированный BERT)
Облегчённая версия BERT, созданная путём дистилляции знаний, сохраняющая 97% производительности базового BERT при всего 40% параметров для более быстрого вывода.
Позиционные встраивания
Векторы, добавляемые к встраиваниям токенов в BERT для кодирования последовательной позиции, необходимые, так как только механизм внимания не улавливает порядок токенов.
BERT-base против BERT-large
Две основные конфигурации BERT: base (12 слоёв, 768 скрытых измерений, 110M параметров) и large (24 слоя, 1024 измерения, 340M параметров) для различных компромиссов между производительностью и ресурсами.
Дообучение BERT
Процесс адаптации весов предварительно обученного BERT к конкретным задачам путём добавления классификационных слоёв и обучения на размеченных данных целевой задачи.
Токен [SEP]
Специальный токен, используемый в BERT для разделения различных сегментов текста (например, пар предложений в задачах QA или NSP), отмечающий границы между сегментами.
Цели предварительного обучения
Самоконтролируемые задачи (MLM и NSP), используемые для предварительного обучения BERT на больших неразмеченных корпусах, позволяющие изучать общие языковые представления.
Стек кодировщиков Transformer
Фундаментальная архитектура BERT, состоящая из множества слоёв кодировщиков Transformer, каждый с механизмами многоголового внимания и нейронными сетями прямого распространения.
Специализированные для домена версии BERT
Варианты BERT, предварительно обученные на специализированных корпусах (BioBERT для биомедицинского, SciBERT для научного, FinBERT для финансового) для лучшей производительности в этих областях.
Многоязычный BERT (mBERT)
Версия BERT, предварительно обученная на 104 языках с общим словарем, способная понимать и обрабатывать текст на нескольких языках с помощью одной модели.
BERTология
Область исследований, посвященная анализу, интерпретации и улучшению моделей типа BERT, изучающая их внутреннее поведение и лингвистические способности.