Выравнивание и безопасность

📖

термины

Конституционный ИИ

Методология согласования, при которой модели следуют предопределенному набору принципов или конституции, позволяя им самостоятельно оценивать и корректировать свои ответы в соответствии с этическими правилами.

📖

термины

Красное командообразование

Систематический процесс оценки уязвимостей моделей экспертами, которые активно пытаются вызвать нежелательное или опасное поведение для выявления и исправления слабых мест.

📖

термины

Согласование безопасности

Совокупность методов, направленных на обеспечение того, чтобы языковые модели избегали генерации вредного, опасного или неуместного контента, сохраняя при этом общую производительность.

📖

термины

Согласование ценностей

Процесс, направленный на согласование целей и поведения систем ИИ с фундаментальными человеческими ценностями, требующий тонкого понимания человеческих предпочтений и этики.

📖

термины

Взлом моделей

Методы атак, предназначенные для обхода механизмов безопасности и согласования моделей, заставляя их генерировать обычно ограниченный или запрещенный контент.

📖

термины

Моделирование вознаграждения

Подход, при котором модель вознаграждения учится предсказывать человеческие предпочтения, служа руководством для обучения с подкреплением основных языковых моделей.

📖

термины

Конституционные принципы

Набор фундаментальных правил и принципов, явно определенных для руководства поведением моделей ИИ, обеспечивая согласованность и соответствие желаемым ценностям.

📖

термины

Обучение предпочтениям

Область машинного обучения, где модели учатся на основе сравнений между различными вариантами, чтобы улавливать человеческие предпочтения и согласовываться с ними.

📖

термины

Обучение безвредности

Специфический процесс обучения, направленный на обучение моделей избегать генерации потенциально вредного, опасного или ущербного контента для пользователей.

📖

термины

Выравнивание правдивости

Цель выравнивания, направленная на обеспечение того, чтобы модели предоставляли фактически корректную информацию и избегали галлюцинаций или непроверенных утверждений.

📖

термины

Смягчение смещений

Набор методов для идентификации, количественной оценки и уменьшения системных смещений в языковых моделях, обеспечивающий справедливое и недискриминационное представление.

📖

термины

Защитные механизмы

Механизмы безопасности, внедренные в системы ИИ для мониторинга и фильтрации входных/выходных данных, предотвращающие опасные или неуместные взаимодействия в реальном времени.

📖

термины

Конституционный надзор

Метод надзора, при котором модели руководствуются явной конституцией, позволяя им самокритиковать и улучшать свои ответы в соответствии с этими руководящими принципами.

📖

термины

Данные человеческих предпочтений

Набор данных, собранный из сравнительных человеческих оценок различных ответов модели, служащий основой для обучения выравниванию и оптимизации.

📖

термины

Тонкая настройка безопасности

Фаза специфической донастройки после начального предварительного обучения, направленная на тонкую корректировку поведения модели для соблюдения ограничений безопасности и этики.

📖

термины

Таксономия выравнивания

Структурная классификация различных типов и измерений выравнивания в ИИ, включая выравнивание ценностей, безопасность, устойчивость и интерпретируемость моделей.

Глоссарий ИИ

Конституционный ИИ

Красное командообразование

Согласование безопасности

Согласование ценностей

Взлом моделей

Моделирование вознаграждения

Конституционные принципы

Обучение предпочтениям

Обучение безвредности

Выравнивание правдивости

Смягчение смещений

Защитные механизмы

Конституционный надзор

Данные человеческих предпочтений

Тонкая настройка безопасности

Таксономия выравнивания

Результаты не найдены