Глоссарий ИИ
Полный словарь искусственного интеллекта
Распознавание именованных сущностей (NER)
Подзадача автоматической обработки естественного языка (NLP), направленная на выявление и классификацию предопределенных сущностей, таких как лица, организации или места, в неструктурированном тексте.
Извлечение сущностей
Процесс идентификации и выделения конкретной структурированной информации (сущностей) из неструктурированных текстовых данных для наполнения базы знаний.
Тегирование сущностей
Действие по присвоению семантических меток (тегов) сущностям, извлеченным из текста, что позволяет их классифицировать и использовать в системах вопросов-ответов.
Словарь сущностей
База данных или структурированный список, содержащий допустимые сущности и их типы, используемый в качестве эталона для распознавания и проверки в системе QA.
Обучение с учителем для NER
Подход, при котором модель NER обучается на вручную размеченном текстовом корпусе для распознавания и классификации сущностей.
Модель «Последовательность-последовательность» (Seq2Seq)
Архитектура нейронной сети, используемая для сложных задач NER, обрабатывающая входную последовательность (текст) для создания выходной последовательности (меток сущностей).
Контекстные эмбеддинги (ELMo, BERT)
Векторные представления слов, которые фиксируют их значение в зависимости от окружающего контекста, значительно повышая точность извлечения неоднозначных сущностей.
Нормализация сущностей
Процесс стандартизации извлеченных сущностей (например, преобразование «Вторник», «вт.» и «вторник» в каноническую форму) для обеспечения согласованности данных.
Связывание сущностей (Entity Linking)
Задача, состоящая в связывании именованной сущности, упомянутой в тексте, с уникальной записью в базе знаний (например, URI DBpedia или Wikidata).
Аннотированный корпус
Набор текстов, в которых сущности были предварительно идентифицированы и размечены людьми, служащий эталонной основой для обучения и оценки моделей NER.
Ложноположительное срабатывание при извлечении
Ошибка, при которой система некорректно определяет сегмент текста как релевантную сущность, что негативно влияет на точность системы вопросно-ответного поиска.
Конвейер извлечения
Последовательная цепочка модулей (токенизация, NER, нормализация, связывание), преобразующая необработанный текст в структурированные и пригодные для использования сущности.
Система QA на основе базы знаний
Тип системы вопросно-ответного поиска, который находит ответы путем запроса к структурированной базе знаний, заполненной посредством извлечения сущностей и отношений.
Гибридный NER
Подход, объединяющий методы на основе правил (pattern matching) и модели машинного обучения, чтобы воспользоваться преимуществами точности первых и гибкости вторых.
Разрешение неоднозначности сущностей
Задача разрешения неоднозначности, когда одна и та же строка символов может относиться к нескольким различным сущностям (например, 'Париж' город vs. 'Париж' миф).
Тонкая настройка для NER
Процесс адаптации предварительно обученной языковой модели (например, BERT) на специальном корпусе для задачи распознавания именованных сущностей.