🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

K折交叉验证

一种模型评估技术,将数据集分成K个相等的分区,每个分区轮流作为测试集,而其余K-1个分区作为训练集。这种方法通过减少评估的方差,能够获得更稳健的模型性能估计。

📖
个术语

分层K折交叉验证

K折交叉验证的一种变体,在每个分区中保持类别的分布,对于不平衡数据集至关重要。这种方法确保每个折都能真实反映原始数据集类别的整体分布。

📖
个术语

留出法

一种简单的评估方法,将数据集分成两个独立的集合:训练集和测试集,通常采用70/30或80/20的比例。虽然实现快速,但根据数据划分方式的不同,这种方法可能产生有偏差的性能估计。

📖
个术语

重复交叉验证

一种重复多次K折过程的技术,使用不同的随机分区来减少性能估计的方差。这种方法结合了K折的优点和更强的统计稳健性,但计算成本更高。

📖
个术语

自助法验证

一种使用有放回抽样从原始数据创建多个训练集和测试集的评估方法。自助法可以估计模型性能的方差,对于小规模数据集特别有用。

📖
个术语

网格搜索与交叉验证

一种系统优化技术,通过使用交叉验证评估每个配置,详尽测试指定的所有超参数组合。这种方法确保在定义的网格中找到最佳组合,但计算成本可能非常高。

📖
个术语

随机搜索与交叉验证

网格搜索的替代方法,随机采样固定数量的超参数组合,而不是穷尽探索所有可能性。这种方法通常比网格搜索更有效,能够用更少的评估找到良好的超参数。

📖
个术语

学习曲线

显示模型性能随训练集大小变化的图表,用于诊断过拟合或欠拟合。学习曲线有助于确定更多数据是否能够提高模型性能。

📖
个术语

验证曲线

可视化诊断工具,展示单个超参数对训练和验证性能的影响。验证曲线有助于识别超参数的最优值,并检测偏差-方差问题。

📖
个术语

交叉熵

衡量两个概率分布之间差异的损失函数,广泛用于分类问题。交叉熵对置信度高的错误预测惩罚更大,使其成为优秀的训练指标。

📖
个术语

均方误差

评估指标,计算预测值与实际值之间差值的平方的平均值,对大误差特别敏感。MSE常用于回归问题,比MAE对重大误差的惩罚更重。

📖
个术语

平均绝对误差

回归指标,测量预测值与实际值之间误差绝对值的平均值,提供目标变量单位的直接解释。与MSE不同,MAE对异常值不太敏感,代表平均绝对误差。

📖
个术语

R²分数

决定系数,衡量目标变量方差中由模型解释的比例,取值范围在-∞到1之间。R²为1表示完美预测,而负值表明模型表现不如简单平均值。

📖
个术语

F1分数

分类指标,计算精确率和召回率的调和平均数,特别适用于不平衡数据集。F1分数在一个指标中平衡了模型避免假阳性和假阴性的能力。

📖
个术语

精确率-召回率曲线

图表展示不同分类阈值下精确率与召回率之间的权衡,对于评估不平衡数据的模型至关重要。该曲线下面积(AUC-PR)提供了独立于阈值的聚合性能度量。

📖
个术语

ROC曲线

表示不同决策阈值下真阳性率与假阳性率关系的曲线,可视化模型的区分能力。ROC曲线及其下面积(AUC-ROC)是评估二分类器整体性能的标准方法。

📖
个术语

AUC分数

ROC曲线下面积,衡量分类器对随机正例给出比随机负例更高分数的概率。AUC提供了一种与阈值无关的性能度量,特别适用于比较不同模型。

📖
个术语

分组K折交叉验证

K折交叉验证的一种变体,确保同一组永远不会同时出现在不同的训练集和测试集中。当数据具有组结构(如患者、用户)且同一组内的观测值相关时,这种方法至关重要。

🔍

未找到结果