AI 词汇表
人工智能完整词典
命名实体识别 (NER)
自然语言处理技术,用于识别和分类非结构化文本中预定义的实体到如人物、组织、地点或日期等类别。
实体链接
将文本中检测到的命名实体连接到结构化知识库中唯一标识符的过程,如维基百科或DBpedia。
IOB标注
使用内部(I)、外部(O)和开始(B)前缀的标注系统,用于标记实体在词元序列中的开始和连续。
条件随机场 (CRF)
用于序列标注的判别式统计模型,在捕获相邻观察值之间的上下文依赖关系方面对命名实体识别特别有效。
双向LSTM
在两个时间方向上处理序列的循环神经网络架构,允许更好地理解命名实体识别的上下文。
BERT
基于transformer的预训练语言模型,使用双向注意力机制来理解命名实体识别中单词的深层上下文。
分词
将文本分割为基本词汇单元(词元)的基本过程,构成命名实体识别的第一步。
分块
句法分割技术,将相邻词组合成连贯的短语,便于识别复杂命名实体。
嵌套命名实体识别
命名实体识别的一种变体,能够识别相互嵌套的实体,如'巴黎大学'中包含'巴黎'作为嵌套实体。
细粒度命名实体识别
使用非常具体和众多的类别(超过100种)对实体进行详细分类的命名实体识别方法。
零样本命名实体识别
允许通过使用文本描述或原型作为指导,识别训练期间从未见过的实体类型的技术。
CoNLL-2003
用于评估命名实体识别系统的标准参考数据集,包含标注了四种主要实体类型的新闻文本。
实体消歧
使用上下文解决同名词义实体之间歧义的过程,以确定文本中引用的正确实体。
spaCy
为生产环境优化的开源自然语言处理库,包括高性能的预训练命名实体识别模型。
命名实体识别的迁移学习
重用从大规模文本语料库中获得的知识,以提高在数据量较少的特定领域的命名实体识别性能的方法。
命名实体识别的主动学习
半自动标注方法,模型智能地选择最有信息量的示例进行标注,优化命名实体识别训练的人工努力。
弱监督命名实体识别
使用不完美的标注源(如启发式规则、词典或不那么精确的模型)来自动生成NER训练数据的学习范式。
斯坦福命名实体识别系统
由斯坦福大学开发的命名实体识别系统,使用CRF模型并提供自定义训练功能。
词性标注
为单词标注语法成分的过程,作为命名实体识别模型的重要特征,有助于区分专有名词和普通名词。
双向长短期记忆网络-条件随机场
混合架构,结合双向LSTM网络进行特征提取,使用CRF对命名实体识别中的序列依赖关系进行建模。