缺失值处理 - AI 术语表

📖

个术语

均值插补

一种插补技术，用同一变量可用观测值的计算均值替换缺失值。这种简单方法保留了变量的整体均值，但可能低估方差。

📖

个术语

中位数插补

一种稳健的方法，用观测值的中位数替换缺失值，特别适用于偏态分布。与均值插补相比，这种方法最小化了异常值的影响。

📖

个术语

KNN插补

一种基于特征空间中k个最近邻来插补缺失值的算法，使用邻近值的加权平均值。这种方法保留了变量之间的局部关系，但计算成本可能较高。

📖

个术语

多重插补

一种先进的统计方法，为每个缺失数据生成多个插补值，反映插补的不确定性。然后合并结果以产生更稳健的估计和有效的置信区间。

📖

个术语

回归插补

一种使用基于其他可用变量作为预测因子的回归模型来预测缺失值的技术。这种方法捕捉了变量之间的线性关系，但可能引入回归向均值的偏差。

📖

个术语

EM插补

期望最大化算法，通过最大化似然函数迭代估计模型参数并插补缺失值。这种统计方法对于MAR（随机缺失）假设下的缺失数据特别有效。

📖

个术语

热卡插补

一种方法，用从同一数据集中随机选择的相似捐赠者的观测值替换每个缺失值。这种技术保留了数据的原始分布和变量之间的相关性。

📖

个术语

插值插补

主要用于时间序列的技术，基于相邻时间值（线性、样条、多项式）估计缺失值。这种方法保持了时间连续性和潜在趋势。

📖

个术语

MICE插补

链式方程多重插补，该方法使用适合变量性质的特定模型对每个变量进行插补，迭代直至收敛。这种灵活的方法处理不同类型的变量和复杂关系。

📖

个术语

互补矩阵插补

将数据矩阵分解为低秩矩阵以预测缺失值的技术，使用如奇异值分解(SVD)等方法。该方法捕获多维数据中的潜在结构。

📖

个术语

自编码器插补

深度学习方法，训练神经网络压缩并重建数据，从而学习预测缺失值。该方法捕获高维数据中复杂的非线性关系。

📖

个术语

贝叶斯插补

使用先验分布和贝叶斯定理估计缺失值的方法，为每次插补生成后验分布。该方法自然地量化不确定性并融入领域知识。

📖

个术语

MissForest插补

基于随机森林的非参数算法，使用在完整观测上训练的决策树模型来插补缺失值。该方法有效处理非线性交互和不同类型的变量。

📖

个术语

聚类插补

将相似观测分组，然后使用对应聚类的统计量（均值、中位数）插补缺失值的技术。该方法保留多模态数据中的底层结构。

📖

个术语

马尔可夫链插补

建模数据状态之间的转移以基于序列中先前或后续状态预测缺失值的方法。该技术特别适用于序列和时间数据。

📖

个术语

决策树插补

使用决策树基于从完整观测学习的分割规则预测缺失值的方法。该方法自动捕获变量间的非线性交互。

📖

个术语

主成分分析插补

基于主成分分析的技术，将数据投影到降维空间后重建缺失值。这种方法对于具有强相关结构的多变量数据非常有效。

📖

个术语

常量值插补

一种简单的策略，将所有缺失值替换为预定义的常量（通常是0、-1或特定领域的值）。这种方法速度快，但如果常量选择不当可能会引入显著偏差。

AI 词汇表