AI 词汇表
人工智能完整词典
鲁棒缩放
使用分位数技术抵抗异常值,通常应用(x - 中位数)/IQR,其中IQR代表四分位距。即使在存在噪声或极端数据的情况下,这种方法也能保持变换的稳定性。
L1归一化
通过将每个值除以向量中所有值的绝对和来进行缩放的方法,确保L1范数等于1。这种变换特别适用于基于概率的模型和稀疏表示。
L2归一化
通过将每个分量除以平方和的平方根来归一化向量的过程,确保欧几里得范数为单位长度。这种技术对于对向量幅度敏感的算法(如SVM和神经网络)至关重要。
分位数归一化
使用分位数累积分布函数将数据变换为遵循指定均匀或正态分布的非参数技术。这种方法对于处理高度偏斜或多峰分布特别有效。
向量单位缩放
通过将每个向量除以其欧几里得范数进行归一化,从而在多维空间中产生单位长度向量。这种方法对于基于余弦相似度度量和文本表示的算法至关重要。
小数归一化
通过将值除以10的幂次将其缩放到[-1,1]区间的简单技术,基于小数点前的最大位数。这种方法在减少绝对数值尺度的同时保留了相对数量级。
鲁棒标准化
使用中位数和中位数绝对偏差(MAD)作为中心趋势和离散度测量的标准化变体,提供更强的异常值抵抗能力。这种方法在保证鲁棒性的同时保持了可解释性。
对数缩放
应用log(x + c)的变换,其中c是处理零值的常数,有效压缩大值的尺度。这种方法特别适用于遵循幂律分布或呈现右偏态的数据。
秩归一化
一种非参数技术,用数据集中每个值的归一化秩替换原始值,消除极端值的影响。这种方法对异常值具有鲁棒性,仅保留观测值的相对顺序。
中位数标准化
一种将数据围绕中位数而非均值进行中心化的方法,除以稳健的离散度度量如四分位距。这种方法对偏态分布和异常值具有更好的抵抗能力。
最大绝对值缩放
一种简单的技术,将每个值除以特征的最大绝对值,保留符号和零值,同时将值限制在[-1,1]范围内。这种方法特别适用于已经中心化或稀疏的数据。
方差归一化
通过除以变量的方差来标准化变量的过程,从而在对尺度敏感的算法中平衡每个特征的重要性。这种方法在主成分分析和岭回归中特别有用。
变异系数标准化
一种高级方法,通过除以变异系数(σ/μ)来归一化数据,使得能够比较具有不同均值和方差的变量。这种技术特别适用于相对变异性比绝对变异性更重要的数据。