Глоссарий ИИ
Полный словарь искусственного интеллекта
Конституционный ИИ
Методология согласования, при которой модели следуют предопределенному набору принципов или конституции, позволяя им самостоятельно оценивать и корректировать свои ответы в соответствии с этическими правилами.
Красное командообразование
Систематический процесс оценки уязвимостей моделей экспертами, которые активно пытаются вызвать нежелательное или опасное поведение для выявления и исправления слабых мест.
Согласование безопасности
Совокупность методов, направленных на обеспечение того, чтобы языковые модели избегали генерации вредного, опасного или неуместного контента, сохраняя при этом общую производительность.
Согласование ценностей
Процесс, направленный на согласование целей и поведения систем ИИ с фундаментальными человеческими ценностями, требующий тонкого понимания человеческих предпочтений и этики.
Взлом моделей
Методы атак, предназначенные для обхода механизмов безопасности и согласования моделей, заставляя их генерировать обычно ограниченный или запрещенный контент.
Моделирование вознаграждения
Подход, при котором модель вознаграждения учится предсказывать человеческие предпочтения, служа руководством для обучения с подкреплением основных языковых моделей.
Конституционные принципы
Набор фундаментальных правил и принципов, явно определенных для руководства поведением моделей ИИ, обеспечивая согласованность и соответствие желаемым ценностям.
Обучение предпочтениям
Область машинного обучения, где модели учатся на основе сравнений между различными вариантами, чтобы улавливать человеческие предпочтения и согласовываться с ними.
Обучение безвредности
Специфический процесс обучения, направленный на обучение моделей избегать генерации потенциально вредного, опасного или ущербного контента для пользователей.
Выравнивание правдивости
Цель выравнивания, направленная на обеспечение того, чтобы модели предоставляли фактически корректную информацию и избегали галлюцинаций или непроверенных утверждений.
Смягчение смещений
Набор методов для идентификации, количественной оценки и уменьшения системных смещений в языковых моделях, обеспечивающий справедливое и недискриминационное представление.
Защитные механизмы
Механизмы безопасности, внедренные в системы ИИ для мониторинга и фильтрации входных/выходных данных, предотвращающие опасные или неуместные взаимодействия в реальном времени.
Конституционный надзор
Метод надзора, при котором модели руководствуются явной конституцией, позволяя им самокритиковать и улучшать свои ответы в соответствии с этими руководящими принципами.
Данные человеческих предпочтений
Набор данных, собранный из сравнительных человеческих оценок различных ответов модели, служащий основой для обучения выравниванию и оптимизации.
Тонкая настройка безопасности
Фаза специфической донастройки после начального предварительного обучения, направленная на тонкую корректировку поведения модели для соблюдения ограничений безопасности и этики.
Таксономия выравнивания
Структурная классификация различных типов и измерений выравнивания в ИИ, включая выравнивание ценностей, безопасность, устойчивость и интерпретируемость моделей.