评估与指标 - AI 术语表

📖

个术语

BLEU (双语评估替补)

自动评估指标，用于比较生成文本与一个或多个人工参考的n-gram精度来评估机器翻译质量。它衡量模型输出与参考之间的文本片段重叠。

📖

个术语

ROUGE (面向召回率的摘要评估助手)

主要用于评估自动摘要质量的指标集合，侧重于与参考摘要相比的n-gram召回率。ROUGE-N、ROUGE-L和ROUGE-S是其最常见的变体。

📖

个术语

连贯性得分

质量指标，衡量生成文本在大范围内的语义和逻辑连贯性，评估句子和段落是否有意义地串联。通常通过句子嵌入模型或专门训练的分类器计算。

📖

个术语

人工评估

基准方法论，其中人类注释者根据相关性、流畅性或完整性等预定义标准判断LLM输出的质量。它提供了真实性的衡量标准，但成本高昂且难以扩展。

📖

个术语

毒性

评估模型生成冒犯性、仇恨性、歧视性或有害内容概率的指标。通常通过在其毒性注释文本语料库上训练的专门分类器来衡量。

📖

个术语

幻觉

LLM生成事实上不正确、无根据或捏造的信息，并将其呈现为真相的现象。幻觉评估包括检查生成内容与已知真实源的一致性。

📖

个术语

偏见

衡量模型产生对某些人口群体系统性有害或刻板印象结果的倾向性。偏见分析输出以检测与性别、种族或其他敏感属性相关的偏见。

📖

个术语

忠实度指标

评估LLM生成内容（特别是在问答或摘要系统中）与提供的上下文或源文档保持一致和连贯程度的指标。低忠实度表示存在偏差或虚构。

📖

个术语

MMLU基准测试（大规模多任务语言理解）

一种全面的基准测试，用于衡量LLM在广泛领域的57个主题上的知识和理解能力，从基础数学到美国法律再到历史。它评估模型回答多项选择问题的能力。

📖

个术语

有用性评分

一种定性指标，评估LLM生成的回答在多大程度上是有用的、相关的，并解决了用户的查询或问题。此分数通常通过人工评估或奖励模型获得。

📖

个术语

少样本评估

一种评估技术，在提示中向模型呈现极少量的目标任务示例（通常为1-5个），以指导其理解和性能。它评估模型的快速适应能力。

📖

个术语

对齐

旨在确保LLM的行为与人类意图、道德价值观和给定指令保持一致的过程和指标。对齐评估检查模型是否有用、无害和诚实（HHH框架）。

📖

个术语

多样性指标

衡量LLM生成文本中词汇或主题多样性和范围的指标，避免重复和通用回答。可以通过唯一类型与总令牌数量的比率（TTR）或句子之间的语义相似性来计算。

📖

个术语

交叉引用评分

用于评估LLM一致性的指标，通过对同一问题生成多个回答并测量它们的语义或事实相似性来实现。高分表示高可靠性和低矛盾可能性。

📖

个术语

TruthfulQA量表

专门设计的基准测试，用于衡量LLM模仿训练文本中常见虚假信息的倾向，评估其生成事实真实回答的能力。它关注真实性而非仅仅的有用性或连贯性。

📖

个术语

鲁棒性指标

评估LLM在输入微小变化（如拼写错误、转述或噪声）下性能稳定性的指标。高鲁棒性指标意味着输出质量不会因扰动而显著下降。

📖

个术语

指令遵循评分 (Instruction Following Score)

评估大语言模型理解和准确执行提示中提供的复杂、多步骤指令能力的指标。该评分对于代理应用和条件生成任务至关重要。

AI 词汇表