AI 詞彙表
人工智能完整詞典
嵌套交叉验证
一种模型评估技术,使用两个嵌套的交叉验证循环来避免超参数优化过程中的过拟合。内部循环选择最佳超参数,而外部循环公正地评估所选模型的性能。
内部循环
嵌套交叉验证中的第一层,负责模型超参数的选择和优化。该循环使用独立的验证集来确定最优配置,然后进行最终评估。
外部循环
嵌套交叉验证中的第二层,在超参数选择后提供模型性能的无偏估计。该循环的测试数据在超参数优化过程中从未被使用。
超参数过拟合
超参数被优化以在验证集上表现特别出色,但损害了对新数据的泛化能力的现象。当相同的交叉验证被用于超参数选择和最终评估时,会出现此问题。
选择偏差
当测试集被隐式用于优化过程时,在模型或超参数选择中引入的系统性误差。这种偏差导致对模型在生产环境中性能的乐观且不切实际的估计。
嵌套网格搜索
将嵌套交叉验证与预定义网格上的穷举超参数搜索相结合的方法。网格中的每个配置都由内部循环评估,然后最佳配置由外部循环测试。
估计泛化误差
通过嵌套交叉验证的外部循环获得的性能度量,表示模型在未见数据上的误差近似值。这种估计被认为比通过简单交叉验证获得的估计更可靠。
顺序优化
超参数选择和模型评估按顺序进行但在不同数据集上执行以避免污染的过程。这种方法在嵌套交叉验证中得到了基本实现。
三重交叉验证
对嵌套交叉验证的扩展,增加了第三个层次用于在不同模型族之间进行选择。每个层次使用不相交的数据,确保对整个流程进行完全公正的评估。
时间信息泄露
序列数据中的特定问题,其中嵌套交叉验证对于保持训练集、验证集和测试集之间的时间顺序至关重要。这种方法防止在优化过程中使用未来信息。
选择稳定性
嵌套交叉验证识别稳健超参数的能力,这些超参数在不同外部验证折叠中表现一致。低稳定性表明对特定训练数据的强依赖性。
二次计算成本
嵌套交叉验证的算法复杂度,需要O(k²)次训练,其中k是折叠数。这种高成本是为了获得模型性能无偏评估所必需的权衡。
蒙特卡洛嵌套交叉验证
嵌套交叉验证的变体,在内部和外部循环中使用带替换的随机抽样。这种方法减少了估计之间的相关性,同时保持评估的公正性。
评估流水线
一种软件架构,其中嵌套交叉验证被实现为一个完整的流水线,集成了预处理、特征选择、超参数优化和最终评估。这种结构确保了可重复性和无数据泄露。
嵌套置信区间
使用外部循环结果计算模型性能置信区间的统计方法。这些区间反映了由于数据变异性和超参数选择过程带来的不确定性。