🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Конституционный ИИ

Методология согласования, при которой модели следуют предопределенному набору принципов или конституции, позволяя им самостоятельно оценивать и корректировать свои ответы в соответствии с этическими правилами.

📖
термины

Красное командообразование

Систематический процесс оценки уязвимостей моделей экспертами, которые активно пытаются вызвать нежелательное или опасное поведение для выявления и исправления слабых мест.

📖
термины

Согласование безопасности

Совокупность методов, направленных на обеспечение того, чтобы языковые модели избегали генерации вредного, опасного или неуместного контента, сохраняя при этом общую производительность.

📖
термины

Согласование ценностей

Процесс, направленный на согласование целей и поведения систем ИИ с фундаментальными человеческими ценностями, требующий тонкого понимания человеческих предпочтений и этики.

📖
термины

Взлом моделей

Методы атак, предназначенные для обхода механизмов безопасности и согласования моделей, заставляя их генерировать обычно ограниченный или запрещенный контент.

📖
термины

Моделирование вознаграждения

Подход, при котором модель вознаграждения учится предсказывать человеческие предпочтения, служа руководством для обучения с подкреплением основных языковых моделей.

📖
термины

Конституционные принципы

Набор фундаментальных правил и принципов, явно определенных для руководства поведением моделей ИИ, обеспечивая согласованность и соответствие желаемым ценностям.

📖
термины

Обучение предпочтениям

Область машинного обучения, где модели учатся на основе сравнений между различными вариантами, чтобы улавливать человеческие предпочтения и согласовываться с ними.

📖
термины

Обучение безвредности

Специфический процесс обучения, направленный на обучение моделей избегать генерации потенциально вредного, опасного или ущербного контента для пользователей.

📖
термины

Выравнивание правдивости

Цель выравнивания, направленная на обеспечение того, чтобы модели предоставляли фактически корректную информацию и избегали галлюцинаций или непроверенных утверждений.

📖
термины

Смягчение смещений

Набор методов для идентификации, количественной оценки и уменьшения системных смещений в языковых моделях, обеспечивающий справедливое и недискриминационное представление.

📖
термины

Защитные механизмы

Механизмы безопасности, внедренные в системы ИИ для мониторинга и фильтрации входных/выходных данных, предотвращающие опасные или неуместные взаимодействия в реальном времени.

📖
термины

Конституционный надзор

Метод надзора, при котором модели руководствуются явной конституцией, позволяя им самокритиковать и улучшать свои ответы в соответствии с этими руководящими принципами.

📖
термины

Данные человеческих предпочтений

Набор данных, собранный из сравнительных человеческих оценок различных ответов модели, служащий основой для обучения выравниванию и оптимизации.

📖
термины

Тонкая настройка безопасности

Фаза специфической донастройки после начального предварительного обучения, направленная на тонкую корректировку поведения модели для соблюдения ограничений безопасности и этики.

📖
термины

Таксономия выравнивания

Структурная классификация различных типов и измерений выравнивания в ИИ, включая выравнивание ценностей, безопасность, устойчивость и интерпретируемость моделей.

🔍

Результаты не найдены