Выравнивание и безопасность
Данные человеческих предпочтений
Набор данных, собранный из сравнительных человеческих оценок различных ответов модели, служащий основой для обучения выравниванию и оптимизации.
← Назад