AI 词汇表
人工智能完整词典
命名实体识别
自动识别和分类非结构化文本中预定义实体(如人名、组织、地点或日期)的过程。这项基础技术有助于构建信息结构,便于分析和利用。
关系抽取
自动识别文本中不同命名实体之间的语义关系,从而构建结构化知识图谱。此技术旨在理解已提取信息之间的逻辑联系。
文本分类
根据语义内容自动将文本分配到一个或多个预定义类别的过程。该技术使用监督学习算法来有效组织和过滤大量文本数据。
属性抽取
自动识别与文本中命名实体相关的特定特征或属性。此技术能够用详细和上下文信息丰富已提取的实体。
时间实体识别
识别和规范化文本中时间表达(如日期、时间、持续时间和时段)的过程。此技术对于理解事件的时序及其时间背景至关重要。
事件抽取
自动识别由特定动作触发的事件并提取其参与者、时间和地点。此技术能够构建动态信息结构并理解文本中描述的复杂场景。
事实抽取
自动识别文本中作为真实呈现的可验证事实陈述的过程。该技术旨在提取客观和结构化信息,以构建可靠的知识库。
情感分析
自动识别文本中表达的观点、情感和态度,通常分类为积极、消极或中性。此技术有助于理解文本数据中的主观性和人类视角。
关键词提取
自动识别文档或语料库中最具代表性和相关术语的过程。这种技术可以快速总结主要内容,便于索引和信息检索。
自动文本摘要
在保留基本信息和整体含义的同时,自动生成文本的压缩版本。这种技术使用提取式或抽象式方法来创建连贯相关的摘要。
术语提取
在专业文本语料库中自动识别特定领域的技术术语和表达。这种技术有助于构建词汇表并理解特定领域的专业词汇。
模式提取
自动识别表示特定信息类型的重复语言结构或语法模式。这种技术可以发现隐式规则,以指导类似信息的提取。
提取式学习
一种机器学习方法论,模型使用从大型未标注语料库中自动提取的信息进行训练。这种方法减少了对人工标注数据的依赖。
语义标注
通过结构化语义元数据自动丰富文本的过程,将文本片段与形式化概念连接起来。这种技术可以将文本内容与现有知识库互连。
知识提取
从非结构化文本数据中自动发现和构建知识的全局过程。这种技术结合多种提取方法来构建可利用的形式化表示。
实体标准化
将提取的实体转换为规范或标准化形式以消除拼写变化和同义词的过程。这种技术确保提取信息的一致性和统一性。
词汇消歧
根据文本中的使用上下文识别多义词的正确含义的过程。该技术对于精确和无歧义的信息提取至关重要。
候选句子提取
自动识别包含特定提取任务相关信息的潜在文本片段。该技术旨在在对内容进行精细分析之前减少搜索空间。
信息过滤
根据预定义标准自动选择相关文档或片段,同时拒绝不相关信息的过程。该技术可以将分析集中在真正有用的数据上。
远程监督
一种监督学习技术,其中训练标签通过将结构化知识源与未标记文本对齐自动生成。该方法可以用最少的人力努力创建大型训练数据集。