AI 词汇表
人工智能完整词典
偏差
由于学习模型中过于简化的假设导致的系统性误差,会导致欠拟合。高偏差表明模型无法捕捉训练数据中存在的复杂关系。
方差
衡量模型对训练集中随机波动的敏感程度,会导致过拟合。高方差意味着模型捕捉的是数据中的噪声而非潜在趋势。
偏差-方差权衡
机器学习中的基本权衡问题,通常降低偏差会增加方差,反之亦然。优化这一权衡有助于找到最佳平衡点,以最小化总泛化误差。
泛化误差
衡量模型在未见数据上的性能,对评估其在新样本上的预测能力至关重要。根据偏差-方差理论,泛化误差可分解为偏差平方、方差和不可约误差。
学习曲线
展示模型性能随训练集规模变化的图表,用于诊断偏差和方差问题。分析学习曲线有助于确定是否需要增加数据或调整模型复杂度。
正则化
一系列控制模型复杂度以减少方差并防止过拟合的技术。L1和L2正则化通过向损失函数添加惩罚项来限制模型系数的幅度。
模型复杂度
衡量模型拟合复杂函数的能力,直接与偏差-方差权衡相关。复杂度可通过参数数量、神经网络深度或多项式次数等方式控制。
近似误差
由于所选模型族无法完全表示真实潜在函数而产生的误差部分。这种与偏差相关的误差即使在训练数据无限多的情况下也依然存在。
估计误差
由于使用有限样本数据来估计模型的最优参数而产生的误差。这一误差成分与方差直接相关,并随着训练数据量的增加而减小。
验证曲线
一种诊断工具,可视化模型性能随超参数或复杂度变化的情况。验证曲线有助于识别训练性能与验证性能之间差距最小的最优点。
早停法
一种正则化方法,在验证集性能不再提升时提前停止训练。这种有效的技术通过自动找到偏差-方差权衡的最优点来限制过拟合。
不可约误差
无论模型如何优化,都无法消除的预测误差部分,由数据中固有的噪声造成。这一成分构成了所有算法必须遵循的泛化误差的理论下限。
VC维
模型类复杂度的理论度量,表示模型能够完全分类的最大点数。Vapnik-Chervonenkis维度为样本大小与泛化误差之间的关系提供了理论边界。