文本分类

📖

个术语

基于文本语义内容自动将文本文档分配到一个或多个预定义类别的自然语言处理任务。

📖

个术语

二元分类

分类类型，其中模型必须在两个互斥的类之间进行选择，通常表示为正/负或0/1。

📖

个术语

多类分类

分类问题，其中每个实例必须被分配到三个或更多类别中的一个确切类别，这些类别是互斥的。

📖

个术语

多标签分类

分类变体，其中一个文档可以同时关联到多个非互斥的标签或类别。

📖

个术语

朴素贝叶斯

基于贝叶斯定理的概率分类算法，假设特征之间存在条件独立性。

📖

个术语

支持向量机(SVM)

监督学习算法，通过最大化边界在高维空间中找到分割类别的最优超平面。

📖

个术语

词袋模型

不考虑单词顺序或语法上下文，仅统计单词出现次数的文本表示方法。

📖

个术语

TF-IDF

统计指标，通过结合词频和逆文档频率来评估单词在文档中相对于语料库的重要性。

📖

个术语

Word Embeddings

词在连续空间中的密集向量表示，其中词之间的语义距离得以保留。

📖

个术语

Transformers

基于注意力机制的神经网络架构，能够捕获序列中的长距离依赖关系。

📖

个术语

Matrice de confusion

通过比较各类别的预测值与真实标签来可视化分类器性能的表格。

📖

个术语

Validation croisée

一种稳健的评估技术，将数据划分为子集，在不同的划分上多次训练和测试模型。

📖

个术语

Précision

衡量模型做出的所有正预测中正确正预测的比例的指标。

📖

个术语

Rappel

评估模型正确识别数据集中所有实际正实例能力的指标。

📖

个术语

Score F1

精确率和召回率的调和平均值，提供一个平衡的单一分类性能度量。

📖

个术语

Overfitting

模型对训练数据学习过于具体，对新的未见数据泛化能力差的现象。

📖

个术语

Tokenisation

将文本分割成基本单元（如词、子词或字符）以进行分析的过程。

📖

个术语

Stemming

一种文本标准化技术，通过删除词缀将单词还原为其词干。

📖

个术语

Lemmatisation

一种语言学过程，利用形态分析和词典将单词还原为其规范形式（词元）。

AI 词汇表