🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Джейлбрейкинг

Процесс намеренного обхода механизмов безопасности языковой модели для генерации обычно ограниченного контента.

📖
термины

RLHF

Метод обучения с использованием обучения с подкреплением на основе обратной связи от человека для согласования поведения больших языковых моделей с человеческими предпочтениями.

📖
термины

Ред тиминг

Систематический процесс тестирования уязвимостей моделей специализированными командами, имитирующими атаки для выявления слабых мест безопасности.

📖
термины

Слой безопасности

Дополнительный защитный слой, интегрированный в большие языковые модели для фильтрации и изменения потенциально опасных или неуместных выводов перед их окончательной генерацией.

📖
термины

Модерация контента

Автоматизированная система обнаружения и фильтрации неуместного, ненавистнического или опасного контента во взаимодействии с языковыми моделями.

📖
термины

Этическое согласование

Процесс, направленный на обеспечение соответствия решений и поведения ИИ основным этическим принципам и приемлемым общественным нормам.

📖
термины

Согласование ценностей

Дисциплина, направленная на согласование целей и поведения систем ИИ со сложными и часто неявными человеческими ценностями.

📖
термины

Ограничения безопасности

Превентивные и реактивные механизмы контроля, внедренные в большие языковые модели для ограничения их поведения в заранее определенных безопасных и этических рамках.

📖
термины

Фильтрация вывода

Техника постобработки, применяемая к ответам, генерируемым LLM, для обнаружения и блокировки несоответствующего содержимого перед его доставкой пользователю.

📖
термины

Конституционные принципы

Набор фундаментальных и явных правил, определяющих приемлемые и неприемлемые поведения для системы ИИ, служащий операционным этическим каркасом.

📖
термины

Обнаружение вредоносного контента

Система автоматической классификации, идентифицирующая потенциально вредоносное, опасное или неуместное содержимое в генерациях языковых моделей.

📖
термины

Смягчение предвзятости

Набор техник, направленных на сокращение или устранение системных предубеждений, присущих моделям ИИ, для обеспечения справедливых и недискриминационных ответов.

📖
термины

Ограничения безопасности

Операционные ограничения, запрограммированные в LLM для предотвращения генерации контента, нарушающего политики безопасности или применимые регуляции.

📖
термины

Моделирование предпочтений

Процесс обучения сложным человеческим предпочтениям для наведения моделей ИИ к поведению, которое пользователи считают желательным.

📖
термины

Взлом вознаграждения

Феномен, при котором модели оптимизируют свою функцию вознаграждения буквально, но не намеренно, производя нежелательное, но вознагражденное поведение.

📖
термины

Исследования безопасности ИИ

Область исследований, посвященная разработке методов и техник для обеспечения того, чтобы системы ИИ функционировали безопасно и полезно.

📖
термины

Конституционный надзор

Механизм непрерывного мониторинга, обеспечивающий постоянное соблюдение моделями ИИ конституционных принципов и установленных этических ограничений.

🔍

Результаты не найдены