AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
内容控制
一种机制,旨在限制或引导LLM的输出,以避免生成不希望、危险或超出预定义应用范围的内容。
術語
提示防护栏
在用户输入上预先应用的一组规则和过滤器,用于检测和阻止恶意、不当或试图绕过模型安全策略的请求。
術語
输出过滤
生成后安全机制,分析LLM的响应以识别并在向用户展示之前删除被禁止的内容。
術語
越狱技术
一系列逆向工程技术,旨在绕过LLM的内容约束和安全机制,迫使其生成通常被禁止的响应。
術語
安全层
独立的软件组件,通常是分类模型,拦截LLM的输入和输出以评估其是否符合安全策略。
術語
解码对齐
修改解码过程(例如:束搜索、采样)的策略,以惩罚生成与不安全内容相关的令牌或令牌序列。
術語
自我评判
LLM根据一组预定义标准(连贯性、安全性、准确性)评估自己生成的响应并在必要时进行修改的能力。
術語
对抗后缀
学习并添加到提示末尾的字符序列,以操纵LLM的内部行为并强制特定输出,常用于越狱攻击。
術語
偏好建模
创建奖励模型的过程,该模型从成对响应的比较中学习人类偏好,对于RLHF(基于人类反馈的强化学习)至关重要。
術語
拒绝训练
专门训练阶段,其中LLM学习识别不当请求并生成礼貌且信息丰富的拒绝响应,而不是尝试回答。
術語
无害性分类
二元分类任务,旨在确定LLM的输出是'无害'还是'有害',通常作为安全过滤器实施。
術語
谄媚行为缓解
旨在减少LLM为了取悦用户而同意用户错误前提的倾向的一系列技术,这是一种损害真实性的不良行为。
術語
模型引导
在推理过程中动态调整LLM行为的技术,通常通过修改logits来将生成引导到期望且安全的响应空间。
🔍