BenchVibe AI Ecosystem

VIP 👤

🏠 Accueil

基準測試

📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction

Modèles

🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code

Ressources

💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200

類別

2,608

子類別

30,011

術語

内容控制

一种机制，旨在限制或引导LLM的输出，以避免生成不希望、危险或超出预定义应用范围的内容。

提示防护栏

在用户输入上预先应用的一组规则和过滤器，用于检测和阻止恶意、不当或试图绕过模型安全策略的请求。

输出过滤

生成后安全机制，分析LLM的响应以识别并在向用户展示之前删除被禁止的内容。

越狱技术

一系列逆向工程技术，旨在绕过LLM的内容约束和安全机制，迫使其生成通常被禁止的响应。

安全层

独立的软件组件，通常是分类模型，拦截LLM的输入和输出以评估其是否符合安全策略。

解码对齐

修改解码过程（例如：束搜索、采样）的策略，以惩罚生成与不安全内容相关的令牌或令牌序列。

自我评判

LLM根据一组预定义标准（连贯性、安全性、准确性）评估自己生成的响应并在必要时进行修改的能力。

对抗后缀

学习并添加到提示末尾的字符序列，以操纵LLM的内部行为并强制特定输出，常用于越狱攻击。

偏好建模

创建奖励模型的过程，该模型从成对响应的比较中学习人类偏好，对于RLHF（基于人类反馈的强化学习）至关重要。

拒绝训练

专门训练阶段，其中LLM学习识别不当请求并生成礼貌且信息丰富的拒绝响应，而不是尝试回答。

无害性分类

二元分类任务，旨在确定LLM的输出是'无害'还是'有害'，通常作为安全过滤器实施。

谄媚行为缓解

旨在减少LLM为了取悦用户而同意用户错误前提的倾向的一系列技术，这是一种损害真实性的不良行为。

模型引导

在推理过程中动态调整LLM行为的技术，通常通过修改logits来将生成引导到期望且安全的响应空间。

🔍

搵唔到結果