🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

内容控制

一种机制,旨在限制或引导LLM的输出,以避免生成不希望、危险或超出预定义应用范围的内容。

📖
術語

提示防护栏

在用户输入上预先应用的一组规则和过滤器,用于检测和阻止恶意、不当或试图绕过模型安全策略的请求。

📖
術語

输出过滤

生成后安全机制,分析LLM的响应以识别并在向用户展示之前删除被禁止的内容。

📖
術語

越狱技术

一系列逆向工程技术,旨在绕过LLM的内容约束和安全机制,迫使其生成通常被禁止的响应。

📖
術語

安全层

独立的软件组件,通常是分类模型,拦截LLM的输入和输出以评估其是否符合安全策略。

📖
術語

解码对齐

修改解码过程(例如:束搜索、采样)的策略,以惩罚生成与不安全内容相关的令牌或令牌序列。

📖
術語

自我评判

LLM根据一组预定义标准(连贯性、安全性、准确性)评估自己生成的响应并在必要时进行修改的能力。

📖
術語

对抗后缀

学习并添加到提示末尾的字符序列,以操纵LLM的内部行为并强制特定输出,常用于越狱攻击。

📖
術語

偏好建模

创建奖励模型的过程,该模型从成对响应的比较中学习人类偏好,对于RLHF(基于人类反馈的强化学习)至关重要。

📖
術語

拒绝训练

专门训练阶段,其中LLM学习识别不当请求并生成礼貌且信息丰富的拒绝响应,而不是尝试回答。

📖
術語

无害性分类

二元分类任务,旨在确定LLM的输出是'无害'还是'有害',通常作为安全过滤器实施。

📖
術語

谄媚行为缓解

旨在减少LLM为了取悦用户而同意用户错误前提的倾向的一系列技术,这是一种损害真实性的不良行为。

📖
術語

模型引导

在推理过程中动态调整LLM行为的技术,通常通过修改logits来将生成引导到期望且安全的响应空间。

🔍

搵唔到結果