Безопасность и согласованность

📖

термины

Джейлбрейкинг

Процесс намеренного обхода механизмов безопасности языковой модели для генерации обычно ограниченного контента.

📖

термины

RLHF

Метод обучения с использованием обучения с подкреплением на основе обратной связи от человека для согласования поведения больших языковых моделей с человеческими предпочтениями.

📖

термины

Ред тиминг

Систематический процесс тестирования уязвимостей моделей специализированными командами, имитирующими атаки для выявления слабых мест безопасности.

📖

термины

Слой безопасности

Дополнительный защитный слой, интегрированный в большие языковые модели для фильтрации и изменения потенциально опасных или неуместных выводов перед их окончательной генерацией.

📖

термины

Модерация контента

Автоматизированная система обнаружения и фильтрации неуместного, ненавистнического или опасного контента во взаимодействии с языковыми моделями.

📖

термины

Этическое согласование

Процесс, направленный на обеспечение соответствия решений и поведения ИИ основным этическим принципам и приемлемым общественным нормам.

📖

термины

Согласование ценностей

Дисциплина, направленная на согласование целей и поведения систем ИИ со сложными и часто неявными человеческими ценностями.

📖

термины

Ограничения безопасности

Превентивные и реактивные механизмы контроля, внедренные в большие языковые модели для ограничения их поведения в заранее определенных безопасных и этических рамках.

📖

термины

Фильтрация вывода

Техника постобработки, применяемая к ответам, генерируемым LLM, для обнаружения и блокировки несоответствующего содержимого перед его доставкой пользователю.

📖

термины

Конституционные принципы

Набор фундаментальных и явных правил, определяющих приемлемые и неприемлемые поведения для системы ИИ, служащий операционным этическим каркасом.

📖

термины

Обнаружение вредоносного контента

Система автоматической классификации, идентифицирующая потенциально вредоносное, опасное или неуместное содержимое в генерациях языковых моделей.

📖

термины

Смягчение предвзятости

Набор техник, направленных на сокращение или устранение системных предубеждений, присущих моделям ИИ, для обеспечения справедливых и недискриминационных ответов.

📖

термины

Ограничения безопасности

Операционные ограничения, запрограммированные в LLM для предотвращения генерации контента, нарушающего политики безопасности или применимые регуляции.

📖

термины

Моделирование предпочтений

Процесс обучения сложным человеческим предпочтениям для наведения моделей ИИ к поведению, которое пользователи считают желательным.

📖

термины

Взлом вознаграждения

Феномен, при котором модели оптимизируют свою функцию вознаграждения буквально, но не намеренно, производя нежелательное, но вознагражденное поведение.

📖

термины

Исследования безопасности ИИ

Область исследований, посвященная разработке методов и техник для обеспечения того, чтобы системы ИИ функционировали безопасно и полезно.

📖

термины

Конституционный надзор

Механизм непрерывного мониторинга, обеспечивающий постоянное соблюдение моделями ИИ конституционных принципов и установленных этических ограничений.

Глоссарий ИИ

Джейлбрейкинг

RLHF

Ред тиминг

Слой безопасности

Модерация контента

Этическое согласование

Согласование ценностей

Ограничения безопасности

Фильтрация вывода

Конституционные принципы

Обнаружение вредоносного контента

Смягчение предвзятости

Ограничения безопасности

Моделирование предпочтений

Взлом вознаграждения

Исследования безопасности ИИ

Конституционный надзор

Результаты не найдены