对齐与安全 - AI 术语表

📖

个术语

宪法AI

一种对齐方法，模型遵循一套预定义的原则或宪法，使其能够根据这些伦理规则自我评估和修正回答。

📖

个术语

红队测试

通过专家系统性地评估模型漏洞的过程，主动寻求引发不良或危险行为，以识别和纠正弱点。

📖

个术语

安全对齐

一系列技术，旨在确保语言模型避免生成有害、危险或不适当内容，同时保持其整体性能。

📖

个术语

价值对齐

将人工智能系统的目标和行为与人类基本价值观对齐的过程，需要对人类偏好和伦理有细致入微的理解。

📖

个术语

模型越狱

旨在绕过模型安全和对齐机制的攻击技术，迫使模型生成通常受限或被禁止的内容。

📖

个术语

奖励建模

一种方法，其中奖励模型学习预测人类偏好，作为主要语言模型强化训练的指导。

📖

个术语

宪法原则

明确定义的一套基本规则和原则，指导AI模型的行为，确保与期望价值观的一致性和对齐。

📖

个术语

偏好学习

机器学习的一个领域，模型通过比较不同选项来学习，以捕捉人类偏好并与之对齐。

📖

个术语

无害性训练

旨在教导模型避免生成对用户可能有害、危险或造成损害的内容的特定训练过程。

📖

个术语

真实性对齐

旨在确保模型提供事实正确的信息并避免幻觉或未经证实的主张的对齐目标。

📖

个术语

偏见缓解

用于识别、量化和减少语言模型中系统性偏见的一系列技术，确保公平和非歧视性的表征。

📖

个术语

防护栏

植入人工智能系统中的安全机制，用于监控和过滤输入/输出，实时防止危险或不适当的交互。

📖

个术语

宪法监督

一种监督方法，模型通过明确的宪法指导，使其能够根据这些指导原则自我批评和改进其回答。

📖

个术语

人类偏好数据

从人类对不同模型回答的比较评估中收集的数据集，作为对齐训练和优化的基础。

📖

个术语

安全微调

在初始预训练之后的特定精调阶段，旨在微调模型行为以符合安全和伦理约束。

📖

个术语

对齐分类法

对人工智能中不同类型和维度对齐的结构化分类，包括价值对齐、安全性、鲁棒性和模型可解释性。

AI 词汇表