BenchVibe AI Ecosystem

VIP 👤

🏠 Accueil

基準測試

📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction

Modèles

🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code

Ressources

💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200

類別

2,608

子類別

30,011

術語

Faithfulness Score

评估生成回答相对于提供上下文的忠实程度的指标，衡量陈述是否得到检索来源的事实支持。

Context Relevance

量化检索到的文档或段落与初始查询相关性的指标，对于评估RAG检索组件的质量至关重要。

Answer Relevance

衡量生成回答直接且完整地回答所提问题的程度，与事实真实性无关的评分。

Retrieval Precision

在所有检索到的文档中相关文档的比例，评估系统仅返回有用信息的效率。

Retrieval Recall

检索到的相关文档数量与知识库中可用相关文档总数之比。

Knowledge F1 Score

检索知识精确率和召回率的调和平均值，提供RAG系统整体性能的平衡衡量。

Context Utilization Rate

检索上下文中相关信息在最终回答中实际使用的百分比，衡量来源使用的效率。

Hallucination Rate

模型生成未得到提供上下文支持的信息的频率，是RAG系统可靠性的关键指标。

语义相似度得分

衡量生成回答与参考回答之间的语义相似性，使用嵌入来捕捉意义层面的细微差别。

回答完整性

评估生成回答是否覆盖了问题所有相关方面，确保回答全面详尽。

检索延迟

从知识库中检索相关文档所需的时间，是生产环境中用户体验的关键标准。

令牌效率比

使用的相关令牌数量与生成的总令牌数量之比，衡量RAG系统的经济效率。

事实依据得分

评估回答中每个主张在检索到的来源中有明确证据支持程度的指标。

来源归因准确性

系统将回答的每个部分正确归因到检索上下文中相应文档来源的精确度。

回答一致性

衡量生成回答的内部一致性，评估回答不同部分之间是否存在矛盾。

查询歧义消解

RAG系统解释和解决用户查询中的歧义以检索最相关信息的能力。

信息重叠分数

衡量回答中信息与检索到的上下文信息之间的重叠程度，避免冗余。

回答准确性

评估生成回答相对于事实真相或已验证参考来源的事实准确性。

检索覆盖率

检索系统实际可访问的知识范围，影响回答多样化问题的能力。

回答连贯性

生成回答的逻辑结构和叙述流程质量，确保信息呈现清晰易懂。

🔍

搵唔到結果