BenchVibe AI Ecosystem

VIP 👤

🏠 Accueil

基準測試

📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction

Modèles

🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code

Ressources

💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200

類別

2,608

子類別

30,011

術語

Precision@K

衡量前K个推荐中有多少比例是相关项目的指标，对于评估排名靠前的结果质量至关重要。

Recall@K

计算前K个推荐中实际包含的相关项目数量与全部相关项目数量的比率。

Mean Average Precision (MAP)

聚合指标，计算每个相关位置上的精度平均值，根据每个相关项目在推荐列表中的排名进行加权。

NDCG (Normalized Discounted Cumulative Gain)

标准化分数，通过惩罚远离列表开头的相关项目来评估排名质量，适用于具有分级相关性的推荐。

RMSE (Root Mean Square Error)

用于评估评分预测准确性的均方根误差，通过测量预测值与实际值之间的差异来计算。

Hit Rate (HR)

至少有一个相关项目出现在前N个推荐中的会话百分比，衡量系统的整体有效性。

Catalog Coverage

系统能够推荐的目录中唯一项目的百分比，对于避免只关注有限项目子集至关重要。

Intra-List Diversity

同一推荐列表中项目之间的平均不相似度度量，对于避免重复和丰富用户体验至关重要。

新颖性

推荐项目对用户的未知程度，计算为其在目录中全局流行度的倒数。

偶然性

系统推荐相关但意外的项目的能力，这些项目能超出简单预测地给用户带来积极惊喜。

A/B测试

实验方法论，比较两个系统版本在真实用户段上的性能，以衡量业务影响。

留一交叉验证

稳健的评估技术，其中每个用户交互轮流用作测试数据，而其他交互用于训练。

离线与在线评估

双重方法，在历史数据（离线）和真实交互（在线）上评估性能，以验证系统的完整有效性。

时间泛化

系统在未来的数据上保持性能的能力，通过对时间划分而非随机划分进行顺序评估。

业务指标关联

算法指标（NDCG，精确率）与业务指标（转化率，留存率）之间关系的分析，以验证业务相关性。

白内障指标

平衡精确性、多样性、新颖性和覆盖率的综合评分，用于整体评估推荐质量。

预期互惠排名 (ERR)

基于用户行为的概率模型，假设用户在首次点击后停止查看，强烈重视排名靠前的位置。

用户覆盖率

系统能够为其生成推荐的用户的百分比，是衡量系统普适性的关键指标。

公平性指标

评估推荐在不同人群间分配公平性的指标，旨在避免算法偏见。

曝光偏差测量

量化热门商品与长尾商品之间的曝光差异，对评估推荐的平衡性至关重要。

🔍

搵唔到結果