🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

Precision@K

衡量前K个推荐中有多少比例是相关项目的指标,对于评估排名靠前的结果质量至关重要。

📖
个术语

Recall@K

计算前K个推荐中实际包含的相关项目数量与全部相关项目数量的比率。

📖
个术语

Mean Average Precision (MAP)

聚合指标,计算每个相关位置上的精度平均值,根据每个相关项目在推荐列表中的排名进行加权。

📖
个术语

NDCG (Normalized Discounted Cumulative Gain)

标准化分数,通过惩罚远离列表开头的相关项目来评估排名质量,适用于具有分级相关性的推荐。

📖
个术语

RMSE (Root Mean Square Error)

用于评估评分预测准确性的均方根误差,通过测量预测值与实际值之间的差异来计算。

📖
个术语

Hit Rate (HR)

至少有一个相关项目出现在前N个推荐中的会话百分比,衡量系统的整体有效性。

📖
个术语

Catalog Coverage

系统能够推荐的目录中唯一项目的百分比,对于避免只关注有限项目子集至关重要。

📖
个术语

Intra-List Diversity

同一推荐列表中项目之间的平均不相似度度量,对于避免重复和丰富用户体验至关重要。

📖
个术语

新颖性

推荐项目对用户的未知程度,计算为其在目录中全局流行度的倒数。

📖
个术语

偶然性

系统推荐相关但意外的项目的能力,这些项目能超出简单预测地给用户带来积极惊喜。

📖
个术语

A/B测试

实验方法论,比较两个系统版本在真实用户段上的性能,以衡量业务影响。

📖
个术语

留一交叉验证

稳健的评估技术,其中每个用户交互轮流用作测试数据,而其他交互用于训练。

📖
个术语

离线与在线评估

双重方法,在历史数据(离线)和真实交互(在线)上评估性能,以验证系统的完整有效性。

📖
个术语

时间泛化

系统在未来的数据上保持性能的能力,通过对时间划分而非随机划分进行顺序评估。

📖
个术语

业务指标关联

算法指标(NDCG,精确率)与业务指标(转化率,留存率)之间关系的分析,以验证业务相关性。

📖
个术语

白内障指标

平衡精确性、多样性、新颖性和覆盖率的综合评分,用于整体评估推荐质量。

📖
个术语

预期互惠排名 (ERR)

基于用户行为的概率模型,假设用户在首次点击后停止查看,强烈重视排名靠前的位置。

📖
个术语

用户覆盖率

系统能够为其生成推荐的用户的百分比,是衡量系统普适性的关键指标。

📖
个术语

公平性指标

评估推荐在不同人群间分配公平性的指标,旨在避免算法偏见。

📖
个术语

曝光偏差测量

量化热门商品与长尾商品之间的曝光差异,对评估推荐的平衡性至关重要。

🔍

未找到结果