Глоссарий ИИ
Полный словарь искусственного интеллекта
Джейлбрейкинг
Процесс намеренного обхода механизмов безопасности языковой модели для генерации обычно ограниченного контента.
RLHF
Метод обучения с использованием обучения с подкреплением на основе обратной связи от человека для согласования поведения больших языковых моделей с человеческими предпочтениями.
Ред тиминг
Систематический процесс тестирования уязвимостей моделей специализированными командами, имитирующими атаки для выявления слабых мест безопасности.
Слой безопасности
Дополнительный защитный слой, интегрированный в большие языковые модели для фильтрации и изменения потенциально опасных или неуместных выводов перед их окончательной генерацией.
Модерация контента
Автоматизированная система обнаружения и фильтрации неуместного, ненавистнического или опасного контента во взаимодействии с языковыми моделями.
Этическое согласование
Процесс, направленный на обеспечение соответствия решений и поведения ИИ основным этическим принципам и приемлемым общественным нормам.
Согласование ценностей
Дисциплина, направленная на согласование целей и поведения систем ИИ со сложными и часто неявными человеческими ценностями.
Ограничения безопасности
Превентивные и реактивные механизмы контроля, внедренные в большие языковые модели для ограничения их поведения в заранее определенных безопасных и этических рамках.
Фильтрация вывода
Техника постобработки, применяемая к ответам, генерируемым LLM, для обнаружения и блокировки несоответствующего содержимого перед его доставкой пользователю.
Конституционные принципы
Набор фундаментальных и явных правил, определяющих приемлемые и неприемлемые поведения для системы ИИ, служащий операционным этическим каркасом.
Обнаружение вредоносного контента
Система автоматической классификации, идентифицирующая потенциально вредоносное, опасное или неуместное содержимое в генерациях языковых моделей.
Смягчение предвзятости
Набор техник, направленных на сокращение или устранение системных предубеждений, присущих моделям ИИ, для обеспечения справедливых и недискриминационных ответов.
Ограничения безопасности
Операционные ограничения, запрограммированные в LLM для предотвращения генерации контента, нарушающего политики безопасности или применимые регуляции.
Моделирование предпочтений
Процесс обучения сложным человеческим предпочтениям для наведения моделей ИИ к поведению, которое пользователи считают желательным.
Взлом вознаграждения
Феномен, при котором модели оптимизируют свою функцию вознаграждения буквально, но не намеренно, производя нежелательное, но вознагражденное поведение.
Исследования безопасности ИИ
Область исследований, посвященная разработке методов и техник для обеспечения того, чтобы системы ИИ функционировали безопасно и полезно.
Конституционный надзор
Механизм непрерывного мониторинга, обеспечивающий постоянное соблюдение моделями ИИ конституционных принципов и установленных этических ограничений.