AI 詞彙表
人工智能完整詞典
自动插补
自动替换数据集中缺失值的技术,使用统计方法或预测模型。自动插补根据变量类型和缺失值模式调整替换策略。
自动归一化
自动调整数值变量的尺度,将其转换到标准化范围(通常在0和1之间)的过程。此技术消除了不同测量单位带来的偏差,并优化学习算法的收敛性。
自动分类编码
将分类变量自动转换为适合机器学习算法的数值表示的系统方法。它根据分类的基数和性质选择并应用最合适的编码技术。
自动异常值检测
使用统计方法或无监督学习自动识别数据集中异常或极端观测值的算法。检测会动态适应多元分布和数据的特定情境。
自动化数据管道
从原始数据到建模最终格式自动执行的转换数据序列。此管道确保预处理步骤的可重现性和持续优化。
自动变量选择
自动识别并保留与给定预测问题最相关变量的算法过程。此技术使用重要性度量、统计测试或包装方法来优化模型性能。
自动对数变换
自动应用对数变换到偏斜变量以标准化其分布。算法基于偏度和峰度度量检测需要此变换的变量。
自动离散化
通过识别最优断点自动将连续变量转换为分类变量的过程。此技术使用基于熵的装箱或分位数等方法来最大化预测能力。
自动缩放
自动标准化数值特征以消除变量之间的尺度差异。该过程根据数据分布和目标算法的要求自适应调整缩放方法。
自动缺失值处理
全面系统,自动分析缺失数据模式并应用最合适的处理策略。该方法结合检测、分类和根据缺失机制的自适应插补。
自动类别平衡
通过过采样、欠采样或混合方法自动调整不平衡分类问题中的类别分布的技术。算法优化偏差-方差权衡以提高在少数类别上的性能。
自动降维
自动应用PCA、t-SNE或自编码器等技术来减少变量数量,同时保留相关信息。系统根据数据结构和建模目标选择最优方法。
自动特征提取
使用深度学习算法或统计方法从原始数据中自动生成信息丰富的特征。这种转换创建针对目标任务优化的更高级别表示。
自动文本清洗
自动化预处理流水线,对文本数据应用标准化、分词、停用词移除和词干提取/词形还原。该过程根据文档的特定语言和领域进行适应。
自动去噪
使用过滤、平滑或无监督学习技术自动从数据中去除噪声的过程。该方法保留相关信号,同时减少可能损害建模的伪影。
自动标准化
自动转换变量使其遵循均值为0、标准差为1的正态分布。该技术识别需要标准化的变量并应用适当的转换。
自动特征缩放
自适应过程,根据每个变量的分布自动应用最合适的缩放技术(最小-最大、稳健、分位数)。这种优化改善了机器学习算法的收敛性和性能。