Механизмы сдерживания
Классификация безобидности
Задача бинарной классификации, направленная на определение того, является ли вывод LLM «безобидным» или «вредным», часто реализуемая в виде фильтра безопасности.
← Назад