偏差-方差分析 - AI 术语表

📖

个术语

偏差

由于学习模型中过于简化的假设导致的系统性误差，会导致欠拟合。高偏差表明模型无法捕捉训练数据中存在的复杂关系。

📖

个术语

方差

衡量模型对训练集中随机波动的敏感程度，会导致过拟合。高方差意味着模型捕捉的是数据中的噪声而非潜在趋势。

📖

个术语

偏差-方差权衡

机器学习中的基本权衡问题，通常降低偏差会增加方差，反之亦然。优化这一权衡有助于找到最佳平衡点，以最小化总泛化误差。

📖

个术语

泛化误差

衡量模型在未见数据上的性能，对评估其在新样本上的预测能力至关重要。根据偏差-方差理论，泛化误差可分解为偏差平方、方差和不可约误差。

📖

个术语

学习曲线

展示模型性能随训练集规模变化的图表，用于诊断偏差和方差问题。分析学习曲线有助于确定是否需要增加数据或调整模型复杂度。

📖

个术语

正则化

一系列控制模型复杂度以减少方差并防止过拟合的技术。L1和L2正则化通过向损失函数添加惩罚项来限制模型系数的幅度。

📖

个术语

模型复杂度

衡量模型拟合复杂函数的能力，直接与偏差-方差权衡相关。复杂度可通过参数数量、神经网络深度或多项式次数等方式控制。

📖

个术语

近似误差

由于所选模型族无法完全表示真实潜在函数而产生的误差部分。这种与偏差相关的误差即使在训练数据无限多的情况下也依然存在。

📖

个术语

估计误差

由于使用有限样本数据来估计模型的最优参数而产生的误差。这一误差成分与方差直接相关，并随着训练数据量的增加而减小。

📖

个术语

验证曲线

一种诊断工具，可视化模型性能随超参数或复杂度变化的情况。验证曲线有助于识别训练性能与验证性能之间差距最小的最优点。

📖

个术语

早停法

一种正则化方法，在验证集性能不再提升时提前停止训练。这种有效的技术通过自动找到偏差-方差权衡的最优点来限制过拟合。

📖

个术语

不可约误差

无论模型如何优化，都无法消除的预测误差部分，由数据中固有的噪声造成。这一成分构成了所有算法必须遵循的泛化误差的理论下限。

📖

个术语

VC维

模型类复杂度的理论度量，表示模型能够完全分类的最大点数。Vapnik-Chervonenkis维度为样本大小与泛化误差之间的关系提供了理论边界。

AI 词汇表

偏差

方差