分类变量编码 - AI 詞彙表

📖

術語

序数编码

标签编码的一种变体，通过根据类别在层次结构中的排名分配整数来保留类别之间的自然顺序，适用于具有内在顺序关系的变量。

📖

術語

二进制编码

首先通过标签编码将类别转换为整数，然后转换为二进制表示的技术，与独热编码相比显著减少了列数。

📖

術語

频率编码

用数据集中每个类别出现的频率替换该类别的编码方法，无需创建新维度即可捕捉每个类别的相对重要性。

📖

術語

哈希编码

使用哈希函数将类别映射到固定数量维度的编码方法，能够以恒定内存高效处理高基数特征。

📖

術語

Base-N编码

二进制编码的扩展，使用不同的数字基数（如base-3、base-4等）来表示类别，在维度和表示能力之间提供折衷。

📖

術語

留一法编码

目标编码的一种变体，计算每个观测值时排除该特定观测值的目标均值，从而降低过拟合和信息泄露的风险。

📖

術語

证据权重编码

信用评分中使用的特定技术，计算每个类别中好坏客户比例的对数比，对线性模型特别有效。

📖

術語

CatBoost编码

使用带平滑处理的顺序计算目标统计量的有序编码方法，以避免过拟合，在CatBoost算法中本地实现。

📖

術語

计数编码

一种简单技术，将每个类别替换为数据集中出现的次数，类似于频率编码，但使用原始计数而非比例。

📖

術語

赫尔默特编码

一种对比编码方法，将分类变量的每个水平与后续水平的平均值进行比较，适用于具有有序变量的线性模型。

📖

術語

求和编码

对比编码的一种变体，其中每个类别与全局平均值进行比较，参考对比代表所有类别的平均效应。

📖

術語

后向差分编码

一种对比编码技术，将分类变量的每个水平与前一个水平进行比较，特别适用于具有自然进展的变量。

📖

術語

M估计编码

目标编码的正则化版本，使用参数m在全局均值和条件均值之间进行加权，控制偏差-方差权衡。

📖

術語

詹姆斯-斯坦编码

一种收缩编码方法，应用詹姆斯-斯坦原理将类别均值与全局均值结合，优化均方误差。

📖

術語

嵌入编码

使用神经网络学习类别密集向量表示的现代方法，自动捕捉类别之间的语义关系。

📖

術語

多项式编码

一种对比编码方法，生成正交多项式项来表示回归模型中分类变量的非线性效应。

AI 詞彙表